촬영할 완벽한 각도를 찾는 것이 어렵나요? PhotoBot은 할 수 있습니다 사진을 찍다 당신을 위한. 사진이 어떻게 보이길 원하는지 말하고 로봇 사진작가 모방에 대한 참고자료를 제시할 것입니다. 마음에 드는 것을 선택하면 카메라가 장착된 로봇 팔인 PhotoBot이 참조 자료와 사진에 맞게 위치를 조정합니다. 자신이 찍은 사진보다 이 사진이 더 마음에 들 가능성이 높습니다.
PhotoBot의 제작자 중 한 명인 Oliver Limoyo는 “정말 재미있는 프로젝트였습니다.”라고 말합니다. 그는 여러 분야의 교차점에서 일하는 것을 즐겼습니다. 로봇을 만드는 데는 인간-로봇 상호 작용, 대규모 언어 모델, 고전적인 컴퓨터 비전이 모두 필요했습니다.
Limoyo는 근무하는 동안 PhotoBot 작업을 했습니다. 삼성그의 매니저 지미 리(Jimmy Li)와 함께. 그들은 로봇이 사진을 찍도록 하는 프로젝트를 진행하고 있었지만 미적 측면에 대한 좋은 측정 기준을 찾기 위해 고군분투하고 있었습니다. 그런 다음 그들은 게티 이미지 챌린지코로나19 봉쇄 기간 동안 사람들이 집에서 유명한 예술 작품을 재현한 곳입니다. 이 도전을 통해 Limoyo와 Li는 로봇이 사진에 영감을 줄 참조 이미지를 선택하도록 하는 아이디어를 얻었습니다.
PhotoBot이 작동하도록 하기 위해 Limoyo와 Li는 원하는 사진 종류의 참조 이미지를 찾는 최선의 방법과 해당 참조에 맞게 카메라를 조정하는 방법이라는 두 가지 사항을 파악해야 했습니다.
참고 사진 제안
PhotoBot을 사용하려면 먼저 원하는 사진에 대한 서면 설명을 제공해야 합니다. (예를 들어 “행복해 보이는 내 사진”을 입력할 수 있습니다.) 그런 다음 PhotoBot 환경을 스캔합니다 주변에 있는 사람과 사물을 식별하여 볼 수 있습니다. 그런 다음 동일한 개체가 포함된 레이블이 지정된 이미지 데이터베이스에서 유사한 사진 세트를 찾습니다.
다음 법학대학원 설명과 환경의 개체를 라벨이 붙은 더 작은 이미지 세트와 비교하여 참조 이미지로 사용할 수 있는 가장 가까운 일치 항목을 제공합니다. LLM은 원하는 수의 참조 사진을 반환하도록 프로그래밍할 수 있습니다.
예를 들어, “심술궂어 보이는 내 사진”을 요청하면 주변 환경에 있는 사람, 안경, 운동복, 컵을 식별할 수 있습니다. 그런 다음 PhotoBot은 얼굴 앞에 머그잔을 들고 있는 피곤한 남자의 참조 이미지를 제공합니다.
사용자가 사진을 흉내내고 싶은 참조 사진을 선택하면 PhotoBot은 유사한 사진을 찍기 위해 로봇 팔을 움직여 카메라 위치를 올바르게 잡습니다.
참조에 맞게 카메라 조정
카메라를 완벽한 위치로 이동하기 위해 PhotoBot은 두 이미지에서 동일한 특징(예: 누군가의 턱 또는 어깨 상단)을 식별하는 것부터 시작합니다. 그런 다음 카메라의 2D 뷰를 촬영하고 일치하는 공간의 3D 위치로 이동합니다. PhotoBot이 우주에 위치하면 로봇의 팔을 움직여 참조 이미지처럼 보이도록 뷰를 변환하는 방법을 해결합니다. 이 과정을 몇 번 반복하여 올바른 포즈에 가까워질수록 점진적으로 조정합니다.
그런 다음 PhotoBot이 사진을 찍습니다.
Photobot의 개발자들은 시스템이 있는 것과 없는 인물 사진을 비교했습니다.삼성/IEEE
PhotoBot으로 촬영한 이미지가 아마추어 인간 사진보다 더 매력적인지 테스트하기 위해 Limoyo 팀은 8명의 사람들에게 로봇의 팔과 카메라를 사용하여 사진을 찍은 다음 PhotoBot을 사용하여 로봇 보조 사진을 찍도록 했습니다. 그런 다음 그들은 20명의 새로운 사람들에게 두 장의 사진을 평가하도록 요청하여 사용자의 사양(예: 행복함, 흥분됨, 놀람)을 언급하면서 어느 것이 미학적으로 더 만족스러운지 물었습니다. 전체적으로 PhotoBot은 360장의 사진 중 242번(67%)이 선호하는 사진 작가였습니다.
PhotoBot은 10월 16일에 발표되었습니다. 지능형 로봇 및 시스템에 관한 IEEE/RSJ 국제 컨퍼런스.
이 프로젝트는 더 이상 개발되지 않지만 Li는 친구들이 서로 더 나은 사진을 찍을 수 있도록 누군가가 기본 프로그래밍을 기반으로 앱을 만들어야 한다고 생각합니다. “휴대폰에서 바로 참조 사진을 본다고 상상해 보세요. 하지만 지금 전화기가 보고 있는 내용도 볼 수 있으므로 이동하고 정렬할 수 있습니다.”