전 세계적으로 학문적 실험실과 상업 스타트 업에서 나오는 인상적인 새로운 로봇 플랫폼 없이는 하루도 지나지 않습니다. 휴머노이드 로봇 특히 공장과 결국 가정과 병원에서 우리를 도울 수있는 것처럼 보입니다. 그러나이 기계들이 진정으로 유용하기 위해서는 로봇 몸을 제어하기 위해 정교한 ‘두뇌’가 필요합니다. 전통적으로 프로그래밍 로봇에는 복잡한 동작을 세 심하게 스크립팅하고 원하는 성능을 달성하기 위해 컨트롤러 이득 또는 모션 계획 가중치와 같은 철저한 튜닝 매개 변수를 수많은 시간을 지출하는 전문가가 포함됩니다. 머신 러닝 (ML) 기술에는 약속이 있지만 새로운 복잡한 행동을 배워야하는 로봇에는 여전히 상당한 인간의 감독과 리엔지니어링이 필요합니다. ~에 Google Deepmind우리는 스스로에게 물었습니다. 로봇이 어떻게 전체적이고 지속적으로 학습하고 지속적으로 적응할 수있게하여, 모든 상당한 개선이나 새로운 기술에 대한 전문가 개입의 병목 현상을 줄일 수 있습니까?
이 질문은 로봇 공학 연구의 원동력이었습니다. 우리는 서로 대항하는 두 로봇 에이전트가 더 많은 수준의 자율 자기 개선을 달성 할 수있는 패러다임을 탐구하고 있으며, 단순히 업무에 대한 광범위한 기술을 배울 수있는 에이전트에 대한 고정되거나 좁은 적응 형 ML 모델로 사전 프로그래밍 된 시스템을 넘어서는 시스템을 넘어서고 있습니다. 다음과 같은 시스템으로 ML의 이전 작업을 바탕으로 알파고 그리고 알파 폴드우리는 까다로운 스포츠에 관심을 돌 렸습니다. 테스트 베드로서의 탁구.
우리는 탁구를 정확하게 선택했습니다. 왜냐하면 그것은 제한된하지만 역동적 인 환경 내에서 로봇 공학에서 가장 어려운 과제를 많이 캡슐화하기 때문입니다. 탁구는 어려운 기술의 합류를 마스터하기 위해 로봇이 필요합니다. 단지 인식을 넘어서, 올바른 각도와 속도로 볼을 가로 채기 위해서는 매우 정확한 제어가 필요하며, 상대를 능가하기위한 전략적 의사 결정을 포함합니다. 이러한 요소는 실시간 상호 작용, 복잡한 물리학, 높은 수준의 추론 및 적응 형 전략의 필요성을 처리 할 수있는 강력한 학습 알고리즘을 개발하고 평가하기위한 이상적인 영역입니다.–제조 및 잠재적으로 구조화되지 않은 가정 환경과 같은 응용 프로그램에 직접 전송할 수있는 기능.
자기 개선 도전
표준 머신 러닝 접근 방식은 지속적이고 자율 학습을 가능하게 할 때 종종 부족합니다. 로봇이 전문가를 모방함으로써 배우는 모방 학습은 일반적으로 모든 기술이나 변형에 대해 방대한 수많은 인간 시연을 제공해야합니다. 로봇이 지속적으로 새로운 작업을 배우거나 시간이 지남에 따라 성능을 개선하기를 원한다면 전문가 데이터 수집에 대한 이러한 의존성이 중대한 병목 현상이됩니다. 마찬가지로, 보상이나 처벌에 의해 시행 착오를 통해 에이전트를 훈련시키는 강화 학습은 종종 인간 디자이너가 복잡한 수학적 보상 기능을 세분적으로 엔지니어링하여 다각적 인 작업에 대한 원하는 행동을 정확하게 포착 한 다음 새로운 기술을 개선하거나 배우기 위해 로봇이 필요로하는 것으로 조정해야합니다. 본질적으로,이 잘 확립 된이 두 가지 방법은 전통적으로 상당한 인간의 참여를 포함합니다. 특히 로봇이 초기 프로그래밍을 넘어서서 지속적으로 스스로 개선하는 것이 목표입니다. 따라서 우리는 우리 팀에 직접적인 도전을 제기했습니다. 로봇은 학습 및 개선 루프 중에 최소한의 또는 인간의 개입으로 그들의 기술을 배우고 향상시킬 수 있습니까?
경쟁을 통한 학습 : 로봇 vs. 로봇
우리가 탐구 한 혁신적인 접근법 중 하나는 Alphago에 사용되는 전략을 반영합니다. 에이전트가 스스로 경쟁하여 배우도록합니다. 우리는 두 개의 로봇 암이 서로 대항하여 테이블 테니스를하는 것을 실험했습니다. 간단하지만 강력한 아이디어 : 한 로봇이 더 나은 전략을 발견함에 따라 상대방이 적응하고 개선해야하며, 기술 수준의 에스컬레이션주기를 만듭니다.
심해
이러한 패러다임에 필요한 광범위한 훈련을 가능하게하기 위해 완전히 자율적 인 탁구 환경을 조작했습니다. 이 설정을 통해 자동화 된 볼 컬렉션과 원격 모니터링 및 제어 기능을 갖춘 연속 작동이 가능하여 직접 참여없이 장기간 실험을 실행할 수 있습니다. 첫 번째 단계로서, 우리는 시뮬레이션에서 강화 학습을 사용하여 협력 집회를 연주하기 위해 로봇 에이전트 (독립적으로 두 로봇에 복제)를 성공적으로 훈련시켰다. 우리는 실제 로봇 -VS-Robot 설정에서 몇 시간 동안 에이전트를 조정하여 긴 집회를 개최 할 수있는 정책을 초래했습니다. 그런 다음 경쟁적인 로봇 VS 로봇 플레이를 다루기 위해 전환했습니다.
상자 밖에서, 협동 조합 요원은 경쟁 플레이에서 잘 작동하지 않았습니다. 협력 플레이에서 랠리는 좁은 구역으로 정착하여 에이전트가 반격 할 수있는 공의 분포를 제한하기 때문에 예상되었습니다. 우리의 가설은 우리가 경쟁력있는 플레이로 계속 훈련하면 상대를 때리는 것에 대해 각 로봇에 보상을 주면서이 분포가 천천히 확장 될 것이라는 것이 었습니다. 유망한 반면, 실제 세계에서 경쟁력있는 자체 플레이를 통한 훈련 시스템은 상당한 장애물을 나타 냈습니다. 제한된 모델 크기의 제약을 감안할 때 분포의 증가는 다소 과감한 것으로 판명되었습니다. 본질적으로, 모델이 오래된 샷을 잊지 않고 새로운 샷을 효과적으로 다루는 법을 배우는 것은 어려웠으며, 우리는 짧은 랠리가 끝난 후 한 로봇이 쉬운 승자를 쳤고 두 번째 로봇은 그것을 반환 할 수 없었던 훈련에서 현지 미니마를 빠르게 쳤다.
로봇 온 로봇 경쟁 플레이는 깨지기 힘든 견과류로 남아 있었지만 우리 팀도 조사했습니다. 인간과 경쟁적으로 플레이하는 방법. 훈련의 초기 단계에서 인간은 공을 유지하는 데 더 나은 일을했기 때문에 로봇이 배울 수있는 샷의 분포를 증가 시켰습니다. 우리는 여전히 세부 기술 설명자와 낮은 레벨 기술을 선택하는 높은 수준의 컨트롤러로 구성된 저수준 컨트롤러로 구성된 정책 아키텍처를 개발해야했으며, 시스템이 보이지 않는 상대에게 실시간으로 적응할 수 있도록 제로 샷 시뮬레이션 접근 방식을 가능하게하는 기술과 함께 여전히 정책 아키텍처를 개발해야했습니다. 사용자 연구에서 로봇은 가장 진보 된 플레이어와의 경기에서 모든 경기를 잃었지만, 초보자와의 모든 경기와 중급 플레이어와의 약 절반이 승리하여 확실한 아마추어 인간 수준의 성능을 보여주었습니다. 이러한 혁신과 협력 플레이보다 더 나은 출발점을 갖추고있는 우리는 Robot-VS-Robot 경쟁 교육으로 돌아가 빠르게 확장 할 수있는 좋은 위치에 있습니다.
심해
AI 코치 : VLM은 게임에 들어갑니다
우리가 조사한 두 번째 흥미로운 아이디어는 비전 언어 모델 (VLMS)쌍둥이 자리처럼. VLM이 코치 역할을하여 로봇 플레이어를 관찰하고 개선을위한 지침을 제공 할 수 있습니까?
심해
이 프로젝트의 중요한 통찰력은 VLM을 활용할 수 있다는 것입니다. 설명 할 수 있습니다 로봇 정책 검색. 이 통찰력을 바탕으로 우리는 SAS 프롬프트 (요약, 분석, 합성), VLM의 새로운 행동을 합성하기 위해 VLM의 검색, 이유 및 최적화 능력을 활용하여 로봇 동작의 반복 학습 및 적응을 가능하게하는 단일 프롬프트. 우리의 접근 방식은 LLM 내에서 완전히 구현되는 새로운 설명 가능한 정책 검색 방법의 초기 예로 간주 될 수 있습니다. 또한 보상 기능이 없습니다. VLM은 작업 설명이 주어진 관찰에서 직접 보상을 유추합니다. 따라서 VLM은 학생의 성과를 지속적으로 분석하고 더 나은 방법에 대한 제안을 제공하는 코치가 될 수 있습니다.
심해
진정으로 배운 로봇 공학 : 낙관적 인 전망
로봇 공학의 미래에는 전통적인 프로그래밍 및 ML 기술의 한계를 넘어서는 것이 필수적입니다. 우리가 발전하는 것과 같은 자율적 자기 개선을 가능하게하는 방법은 인간의 노력에 대한 의존도를 줄입니다. 우리의 탁구 프로젝트는 복잡한 기술을 더 자율적으로 습득하고 개선 할 수있는 로봇으로가는 길을 탐구합니다. 로봇 VS 로봇 학습을 안정화시키는 중대한 문제가 지속되지만 VLM 기반 코칭을 확장하는 것은 엄청난 작업이지만, 이러한 접근 방식은 독특한 기회를 제공합니다. 우리는이 방향으로의 지속적인 연구가 구조화되지 않은 세계에서 효과적이고 안전하게 작동하는 데 필요한 다양한 기술을 배울 수있는 유능하고 적응 가능한 기계로 이어질 것이라고 낙관적입니다. 여정은 복잡하지만 진정으로 지능적이고 도움이되는 로봇 파트너의 잠재적 인 보상은 추구 할 가치가 있습니다.
저자는 Google Deepmind Robotics 팀, 특히 David B. D ‘Ambrosio, Saminda Abeyruwan, Laura Graesser, Atil Iscen, Alex Bewley 및 Krista Reymann 에게이 작품의 발전과 세련미에 대한 귀중한 기여에 대한 깊은 감사를 표합니다.