
Google의 Robotics Team은 기계 학습, 엔지니어링 및 물리 시뮬레이션에 대한 전문 지식을 적용하여 AI 기반 로봇 개발에 직면 한 문제를 해결합니다. | 출처 : Deepmind
Google Deepmind는 오늘 두 가지 새로운 인공 지능 모델 인 Gemini Robotics, 로봇 공학 용으로 설계된 Gemini 2.0 기반 모델 및 고급 공간 이해를 가진 Gemini 모델 인 Gemini Robotics-ER을 소개했습니다.
DeepMind는 텍스트, 이미지, 오디오 및 비디오에서 멀티 모달 추론을 통해 Gemini가 복잡한 문제를 해결하는 방법에서 진전을 이루고 있다고 말했다. 이제, 이것들과 함께 새로운 모델그것은 이러한 기능을 디지털에서 현실 세계로 가져오고 있습니다.
Gemini Robotics는 Gemini 2.0에 구축 된 Advanced Vision-Language-Action (VLA) 모델입니다. 로봇을 직접 제어 할 목적으로 새로운 출력 방식으로 물리적 행동을 추가했습니다.
Gemini Robotics-er는 고급 공간 이해를 제공하여 로봇 공학자들이 Gemini의 구체화 된 추론 (ER) 능력을 사용하여 자체 프로그램을 운영 할 수있게합니다.
DeepMind는이 두 모델 모두 다양한 로봇이 그 어느 때보 다 더 넓은 범위의 실제 작업을 수행 할 수있게한다고 말했다. 노력의 일환으로 Deepmind는입니다 파트너 ~와 함께 Apptronik 구축하려면 휴머노이드 Gemini 2.0을 가진 로봇.
그만큼 Google 유닛은 또한 신뢰할 수있는 테스터와 협력하여 Gemini Robotics-ER의 미래를 안내하고 있습니다. 여기에는 포함됩니다 민첩한 로봇,,, 민첩성 로봇 공학,,, 보스턴 역학그리고 매혹적인 도구.
실제 세계에서 AI를 유용하게 만드는 방법
Deepmind 블로그 게시물에 따르면 사람들에게 유용하고 도움이되기 위해 로봇 공학에 대한 AI 모델은 세 가지 주요 특성이 필요합니다.
- 그들은 일반적이어야합니다. 즉, 다른 상황에 적응할 수 있습니다.
- 그들은 대화식이어야하므로 환경의 지시 나 변화를 신속하게 이해하고 응답 할 수 있습니다.
- 그들은 손재주가되어야합니다. 즉, 사람들이 일반적으로 손과 손가락으로 할 수있는 일을 신중하게 조작하는 것과 같이 할 수있는 일을 할 수 있습니다.
동안 조직이전의 이전 연구는이 영역에서 약간의 진전을 보여 주었고, Gemini Robotics는 세 축 모두에서 실질적인 성능 단계를 나타냅니다.
Deepmind는 일반성과 상호 작용을 강조합니다
Gemini Robotics는 Gemini의 세계 이해를 사용하여 새로운 상황으로 일반화하고 훈련에서 본 적이없는 작업을 포함하여 다양한 작업을 상자 밖으로 해결합니다. Gemini Robotics는 또한 새로운 개체, 다양한 지침 및 새로운 환경을 다루는 데 능숙합니다.
평균적으로 Gemini Robotics는 다른 VLA 모델과 비교하여 포괄적 인 일반화 벤치 마크에서 두 배 이상의 성능을 발휘한다고 말했다.
장군 외에도 상호 작용이 중요합니다. 우리의 역동적 인 물리적 세계에서 작동하려면 로봇은 사람들과 주변 환경과 원활하게 상호 작용하고 즉시 변화에 적응할 수 있어야합니다.
Deepmind는 Gemini 2.0의 기초 위에 세워져 있기 때문에 Deepmind는 말했다. 쌍둥이 자리 로봇 직관적으로 대화식입니다. 그것은 Gemini의 고급 언어 기능을 활용하고 일상적인 대화와 다른 언어로 표현 된 명령을 이해하고 응답 할 수 있습니다.
이 모델은 이전 모델보다 훨씬 광범위한 자연 언어 지침 세트를 이해하고 응답 할 수 있으며, 행동을 사용자 입력에 적응시킬 수 있다고 Deepmind는 말했다. 또한 주변 환경을 지속적으로 모니터링하고 환경 또는 지침의 변화를 감지하며 그에 따라 동작을 조정합니다. 이런 종류의 통제 또는 “조향성”은 사람들이 가정에서 직장에서 직장에 이르기까지 다양한 환경에서 로봇 조수와 협력하는 데 도움이 될 수 있다고 회사는 말했다.
모든 모양과 크기의 로봇에는 높은 손재주가 필요합니다
Deepmind는 유용한 로봇을 구축하기위한 세 번째 열쇠 기둥은 손재주로 행동하고 있다고 말했다. 인간이 쉽게 수행하는 일상적인 작업은 훌륭한 운동 기술을 필요로하며 로봇에는 여전히 너무 어렵습니다.
대조적으로, Gemini Robotics는 종이 접기 접이식 또는 스낵을 Ziploc 백에 포장하는 것과 같이 정확한 조작이 필요한 매우 복잡한 다단계 작업을 해결할 수 있다고 설명했습니다.
또한 DeepMind는 다양한 형태의 요인의 로봇에 적응하도록 Gemini Robotics를 설계했다고 말했다. 이 회사는 BI-Arm Robotic 플랫폼 인 Aloha 2의 데이터에 대한 모델을 주로 훈련 시켰지만,이 모델은 많은 학문적 실험실에 사용되는 Franka Arms를 기반으로 2 개의 무기 플랫폼을 제어 할 수 있음을 보여주었습니다.
Deepmind는 Gemini Robotics가 Apptronik이 개발 한 Humanoid Apollo Robot과 같은보다 복잡한 실시 예제에 대해 실제 작업을 완료하기위한 목표를 달성 할 수 있다고 지적했습니다.
Gemini Robotics-er는 공간 추론에 중점을 둡니다
Gemini Robotics-er는 특히 공간 추론에 중점을 둔 로봇 공학에 필요한 방식으로 Gemini의 세계에 대한 이해를 향상시킵니다. 또한 로봇 학자들이 기존 저수준 컨트롤러와 연결할 수 있습니다. DeepMind는이 모델이 포인팅 및 3D 탐지와 같은 Gemini 2.0의 기존 능력을 크게 향상 시켰다고 말했다.
Deepmind는 공간 추론과 Gemini의 코딩 능력을 결합한 Gemini Robotics-ER은 완전히 새로운 기능을 즉시 인스턴스화 할 수 있다고 Deepmind는 주장했다. 예를 들어, 커피 머그잔을 보여 주면이 모델은 손잡이로 집어 들고 접근하기위한 안전한 궤적으로 적절한 2 손가락을 잡을 수 있습니다.
Google에 따르면 Gemini Robotics-ER은 인식, 상태 추정, 공간 이해, 계획 및 코드 생성을 포함하여 상자 밖에서 로봇을 바로 제어하는 데 필요한 모든 단계를 수행 할 수 있습니다. 이러한 엔드 투 엔드 설정 에서이 모델은 Gemini 2.0보다 2 ~ 3 배 더 성공적입니다.
코드 생성이 충분하지 않은 경우, Gemini Robotics-er는 소수의 인간 시연의 패턴에 따라 솔루션을 제공하기 위해 텍스트 내 학습의 힘을 활용할 수 있습니다.
Deepmind는 Gemini 접근 방식의 로봇 안전을 고려합니다
DeepMind는 AI와 로봇 공학의 잠재력을 탐구함에 따라 저수준 모터 제어에서 높은 수준의 의미 론적 이해에 이르기까지 안전을 해결하기위한 계층적이고 전체적인 접근 방식을 취한다고 말했다.
Gemini Robotics-ER은 충돌을 피하고 접촉력의 크기를 제한하며 모바일 로봇의 동적 안정성을 보장하는 “저수준”안전 중요 컨트롤러와 인터페이스 할 수 있습니다.
Gemini의 핵심 안전 기능을 바탕으로 Gemini Robotics-ER 모델은 잠재적 조치가 주어진 상황에서 수행하기에 안전한 지 여부를 이해하고 적절한 응답을 생성 할 수 있습니다.
DeepMind는 새로운 데이터 세트에 대한 추가 연구를 추구합니다
학계 및 산업 전반에 걸쳐 로봇 공학 안전 연구를 발전시키기 위해 Deepmind는 구체화 된 AI 및 로봇 공학의 시맨틱 안전을 평가하고 개선하기위한 새로운 데이터 세트를 발표했습니다. 이전 작업에서는 어떻게“로봇 헌법”Isaac Asimov의 3 가지 로봇 법칙에서 영감을 얻은 큰 언어 모델 (LLM)이 로봇의 안전한 작업을 선택하도록하는 데 도움이 될 수 있습니다.
이 조직은 이후 로봇의 행동을 조종하기 위해 데이터 중심 헌법 (자연어로 직접 표현 된 규칙)을 자동으로 생성하는 프레임 워크를 개발했습니다. 이 프레임 워크는 사람들이 더 안전하고 인간의 가치에 맞는 로봇을 개발하기 위해 헌법을 만들고 수정 및 적용 할 수있게 해줍니다.
마지막으로, 새로운 Asimov 데이터 세트 Deepmind는 연구자들이 실제 시나리오에서 로봇 행동의 안전성을 엄격하게 측정하는 데 도움이 될 것이라고 말했다.
게시물 Google DeepMind는 AI를 현실 세계에 가져 오는 두 가지 Gemini 기반 모델을 소개합니다. 먼저 나타났습니다 로봇 보고서.