생성 AI 모델은 실제 세계에서 행동을 취하는 데 점점 더 가까워지고 있습니다. 이미 큰 AI 회사가 도입하고 있습니다 AI 요원 웹 기반의 바쁜 작업을 관리하거나 식료품을 주문하거나 저녁 식사 예약을 할 수 있습니다. 오늘날 Google Deepmind 발표 내일의 로봇에 전원을 공급하도록 설계된 두 가지 생성 AI 모델.
모델은 모두 구축되었습니다 Google Gemini텍스트, 음성 및 이미지 데이터를 처리하여 질문에 대답하고 조언을 제공하며 일반적으로 도움을 줄 수있는 멀티 모달 기초 모델. DeepMind는 새로운 모델 중 첫 번째 모델 인 Gemini Robotics, “Advanced Vision-Language-Action 모델”을 호출합니다. 즉, 동일한 입력을 모두 사용하고 로봇의 물리적 행동에 대한 출력 지침을 사용할 수 있습니다. 이 모델은 모든 하드웨어 시스템과 함께 작동하도록 설계되었지만 대부분 두 무기에서 테스트되었습니다. 알로하 2 작년에 Deepmind가 소개 한 시스템.
시연 비디오에서 목소리는 다음과 같이 말합니다.“농구를 집어 들고 슬램 덩크”(아래 비디오에서 2:27). 그런 다음 로봇 암이 조심스럽게 미니어처 농구를 집어 들고 미니어처 그물에 떨어 뜨립니다. 그리고 NBA 수준의 덩크는 아니지만 심해 연구원들을 흥분시키는 것으로 충분했습니다.
Google DeepMind는 로봇을 제어하기 위해 Gemini Robotics Foundation 모델의 기능을 보여주는이 데모 비디오를 발표했습니다. 쌍둥이 자리 로봇
“이 농구 예는 제가 가장 좋아하는 것 중 하나입니다 Kanishka Rao프레스 브리핑 에서이 프로젝트의 주요 소프트웨어 엔지니어. 그는 로봇이“농구와 관련된 것을 본 적이 없다”고 설명했지만, 그 기초 기초 모델은 게임에 대한 일반적인 이해를 가지고 있었고 농구 그물이 어떻게 보이는지 알았으며“슬램 덩크”라는 용어가 무엇을 의미하는지 이해했다고 설명했다. 따라서 로봇은“그것들을 연결할 수있었습니다 [concepts] 실제로 물리적 세계에서 과제를 달성하기 위해”라고 Rao는 말합니다.
Gemini Robotics의 발전은 무엇입니까?
Carolina ParadaGoogle Deepmind의 로봇 공학 책임자는 브리핑에서 새로운 모델이 회사의 이전 로봇보다 일반화, 적응성 및 손재주의 3 가지 차원으로 향상되었다고 말했다. 그녀는“새로운 세대의 유용한 로봇”을 만들기 위해서는 이러한 모든 발전이 필요하다고 말했다.
일반화는 로봇이 할 수 있음을 의미합니다 한 맥락에서 다른 상황에 배운 개념을 다른 상황에 적용하고 연구원들은 시각적 일반화 (예를 들어, 물체 나 배경의 색상이 바뀌면 혼란스러워집니다), 지시 일반화 (다른 방식으로 표현 된 명령을 해석 할 수 있음) 및 조치 일반화 (이전에 한 적이없는 행동을 수행 할 수 있음).
Parada는 또한 Gemini가 구동하는 로봇이 변화하는 지침과 상황에 더 잘 적응할 수 있다고 말합니다. 비디오에서 그 지점을 보여주기 위해, 연구원은 로봇 암에 많은 플라스틱 포도를 투명한 Tupperware 용기에 넣으라고 말한 다음 Shyster의 쉘 게임의 근사치로 3 개의 컨테이너를 테이블 위에 바꾸어 놓았습니다. 로봇 암은 지침을 충족시킬 때까지 맑은 컨테이너를 정중하게 따라 갔다.
Google DeepMind는 Gemini Robotics가 변화하는 지침 및 상황에 적응하는 이전 모델보다 낫다고 말합니다.Google Deepmind
Dexterity와 관련하여 데모 비디오는 로봇 암이 종이 종이 여우에 종이 조각을 접고 다른 섬세한 작업을 수행하는 것을 보여주었습니다. 그러나 여기서 인상적인 성능은 로봇이 이러한 특정 작업에 대해 훈련 된 고품질 데이터 세트는 이러한 특정 작업에 대해 교육을받는 데 덱스스터 성 수준이 일반화되지 않습니다.
구체화 된 추론은 무엇입니까?
오늘날 소개 된 두 번째 모델은 Gemini Robotics-er이며, ER은 인간이 시간이 지남에 따라 경험을 통해 발전한다는 직관적 인 물리적 세계를 이해하는 일종의“구체화 된 추론”을 의미합니다. 우리는 이전에 본 적이없는 물체를보고 상호 작용하는 가장 좋은 방법에 대해 교육받은 추측과 같은 영리한 일을 할 수 있습니다. 이것이 Deepmind가 Gemini Robotics-er와 함께 모방하려는 것입니다.
Parada는 커피 컵을 집어 들기위한 적절한 파악 지점을 식별 할 수있는 Gemini Robotics-er의 예를 제시했습니다. 이 모델은 인간이 커피 머그를 잡는 경향이 있기 때문에 손잡이를 올바르게 식별합니다. 그러나 이것은 인간 중심의 훈련 데이터에 의존하는 잠재적 약점을 보여줍니다. 로봇, 특히 뜨거운 커피 머그잔을 편안하게 처리 할 수있는 로봇의 경우 얇은 손잡이는 머그잔 자체를 더 많이 포위하는 것보다 훨씬 덜 신뢰할 수있는 그라스핑 지점 일 수 있습니다.
로봇 안전에 대한 Deepmind의 접근
Vikas SindhwaniDeepMind의 프로젝트에 대한 로봇 안전 책임자는이 팀이 안전에 대한 레이어에 접근했다고 말했다. 충돌 회피 및 안정성과 같은 것들을 관리하는 전형적인 물리적 안전 제어로 시작하지만 지침과이를 따르는 결과를 모두 평가하는 “시맨틱 안전”시스템도 포함됩니다. 이 시스템은 Gemini Robotics-ER 모델에서 가장 정교하다고 Sindhwani는“주어진 시나리오에서 수행 할 수있는 잠재적 조치가 안전한지 여부를 평가하도록 훈련되어있다”고 말했다.
Sindhwani는“안전성이 경쟁력있는 노력이 아니기 때문에 Deepmind는 새로운 데이터 세트와 그것이 다음을 Asimov 벤치 마크이는 상식적인 삶의 규칙을 이해하는 모델의 능력을 측정하기위한 것입니다. 벤치 마크에는 시각적 장면과 텍스트 시나리오에 대한 질문이 모두 포함되어 있으며, 표백제와 식초를 혼합하는 바람직 함 (염소 가스를 만드는 조합)과 핫 스토브에 부드러운 장난감을 넣는 것과 같은 모델의 의견을 묻습니다. 프레스 브리핑에서 Sindhwani는 Gemini 모델이 그 벤치 마크에서“강력한 성능”을 가지고 있다고 말했습니다. 기술 보고서 모델이 질문의 80 % 이상이 정확하다는 것을 보여주었습니다.
Deepmind의 로봇 파트너십
12 월에 Deepmind와 Humanoid Robotics Company Apptronik 발표 a 공동그리고 Parada는 두 회사가“핵심적으로 Gemini와 함께 차세대 휴머노이드 로봇을 구축하기 위해 협력하고 있다고 말합니다. DeepMind는 또한 “신뢰할 수있는 테스터”의 엘리트 그룹에 모델을 제공하고 있습니다. 민첩한 로봇,,, 민첩성 로봇 공학,,, 보스턴 역학그리고 매혹적인 도구.