범용 로봇은 훈련하기가 어렵습니다. 꿈은 제트슨의 로지와 같은 로봇 그것은 할 수 있습니다 범위를 수행합니다 가정 세탁소를 정리하거나 접는 것과 같은 작업. 그러나 그 일이 일어나려면 로봇은 많은 양의 데이터 실제 조건과 일치합니다. 데이터는 수집하기 어려울 수 있습니다. 현재 대부분의 교육 데이터는 유용한 정보를 수집하기 위해 신중하게 설정 해야하는 여러 정적 카메라에서 수집됩니다. 그러나 봇이 우리가 이미 물리적 세계와의 일상적인 상호 작용에서 배울 수 있다면 어떨까요?
그것은 질문입니다 범용 로봇 공학 및 AI 실험실 뉴욕 대학교에서 조교수가 이끄는 레렐 핀토대답하기를 희망합니다 에고 제로수프 버전으로 데이터를 수집하여 로봇 학습을 지원하는 스마트 글라스 시스템 메타 안경.
a 최근의 사전 인쇄이 접근 방식의 개념 증명 역할을하는 연구원들은 로봇을 훈련하여 빵 조각을 집어 들고 근처 접시에 배치하는 등 7 가지 조작 작업을 완료했습니다. 각 작업마다, 그들은 메타의 안경으로 행동을 기록하면서 이러한 작업을 수행하는 인간으로부터 20 분의 데이터를 수집했습니다. 프로젝트 아리아. (이 센서가 함유 된 안경은 연구 목적으로 독점적으로 사용됩니다.) 로봇으로 이러한 작업을 자율적으로 완료하도록 배치하면 시스템은 70 %의 성공률을 달성했습니다.
egocentric 데이터의 장점
Egozero의 “EGO”부분은 데이터의 “Egocentric”특성을 나타냅니다. 이는 작업을 수행하는 사람의 관점에서 수집됩니다. 우리의 눈이 우리와 함께 움직이는 방식처럼“카메라는 당신과 함께 움직입니다. Raunaq BhirangiNYU 실험실의 박사후 연구원.
여기에는 두 가지 주요 장점이 있습니다. 첫째, 설정은 외부 카메라보다 휴대가 가능합니다. 둘째, 안경은 착용자가 필요한 정보를 캡처 할 가능성이 높으며, 따라서 카메라는 작업을 수행하는 데 필요한 것이 무엇인지 확인할 수 있기 때문입니다. Bhirangi는“예를 들어, 테이블 아래에 무언가를 가지고 있고 그것을 풀고 싶다고 말합니다. 나는 구부러지고, 그 후크를보고, 3 인칭 카메라와는 달리, 그 후크를보고, 그것을 활성화하지 않을 것”이라고 Bhirangi는 말합니다. “이 egocentric 관점을 통해 정보를 무료로 데이터에 구축 할 수 있습니다.”
Egozero의 후반부는 시스템이 로봇 데이터없이 훈련된다는 사실을 말합니다. 이는 비용이 많이 들고 수집하기 어려울 수 있습니다. 인간 데이터만으로도 로봇이 새로운 작업을 배우기에 충분합니다. 이는 Pinto의 실험실에서 개발 한 프레임 워크에 의해 전체 이미지가 아닌 공간의 포인트를 추적합니다. Bhirangi는“이미지 기반 데이터에 대한 로봇을 훈련시킬 때“사람의 손이 보이는 것과 로봇 암이 어떻게 보이는지에 따라 불일치가 너무 큽니다.”라고 Bhirangi는 말합니다. 이 프레임 워크는 대신 로봇의 지점에 매핑됩니다.
Egozero 시스템은 스마트 안경을 착용 한 인간의 데이터를 가져 와서 로봇이 일반적인 조작 작업을 수행 할 수있는 유용한 3D- 무법자 데이터로 전환합니다.Vincent Liu, Ademi Adeniji, Haotian Zhan 등.
3D 공간의 지점으로 이미지를 줄이면 모델이 특정 로봇 부속기에 관계없이 동일한 방식으로 움직임을 추적 할 수 있습니다. Bhirangi는“로봇 포인트가 인간 지점이 움직이는 것과 같은 방식으로 물체와 관련하여 움직이는 한, 우리는 좋습니다.
이 모든 것은 일반화 가능한 모델로 이어지는 많은 다양한 로봇 데이터가 필요합니다. 로봇이 빵 한 조각 (델리 롤)을 집어 올리는 데이터에 대한 교육을받은 경우 해당 정보를 일반화하여 새로운 환경에서 Ciabatta를 집어 올릴 수 있습니다.
확장 가능한 솔루션
연구 그룹은 Egozero 외에도 오픈 소스 로봇 디자인, Flexible을 포함한 일반 목적 로봇을 현실로 만드는 데 도움이되는 여러 프로젝트를 진행하고 있습니다. 터치 센서및 실제 교육 데이터를 수집하는 추가 방법.
예를 들어, Egozero의 대안으로서, 연구원들은 대부분의 로봇“손”과 더 유사한 3D 프린트 핸드 헬드 그립퍼가있는 설정을 설계했습니다. 그립퍼에 연결된 스마트 폰은 Egozero에서 사용되는 동일한 포인트 공간 방법으로 비디오를 캡처합니다. 팀은 사람들이 로봇을 집에 가져 오지 않고 데이터를 수집하게함으로써 교육 데이터를 수집하기에 더 확장 할 수있는 두 가지 접근 방식을 제공합니다.
이러한 확장 성은 궁극적으로 연구원의 목표입니다. 대형 언어 모델은 전체 인터넷을 활용할 수 있지만 실제 세계에는 인터넷이 없습니다. 스마트 안경과 일상적인 상호 작용을 활용하면 그 차이를 메울 수 있습니다.