강화 학습 트리플 스팟의 달리기 속도

Date:

약 1 년 전, Boston Dynamics가 출시되었습니다 스팟의 연구 버전스팟 조인트를 직접 제어 할 수있는 저수준 애플리케이션 프로그래밍 인터페이스 (API)가 제공됩니다. 그 당시에 도이 소문은이 API가 훨씬 빠른 달리기 속도를 포함하여 현장에서 몇 가지 중대한 성능 개선을 잠금 해제했다는 소문이있었습니다. 그 소문은 로봇 공학 및 AI (RAI) 연구소이전에는 AI Institute, 이전에 보스턴 다이나믹스 AI Institute그리고 당신이 있었다면 Marc Raibes ‘s 작년 가을 로테르담에서 열린 ICRA@40 컨퍼런스에서 대화를 나누면 이미 소문이 아닌 것으로 판명되었습니다.

오늘날, 우리는 RAI Institute가 현실적으로 강화 된 강화 학습 기술을 적용하여 훨씬 더 높은 성능을 가능하게하는 작업을 공유 할 수 있습니다. 동일한 기술은 또한 역동적 인 로봇이 강력하게 작동하는 데 도움이 될 수 있으며,이를 보여주는 새로운 하드웨어 플랫폼이 있습니다 : 자율 자전거는 점프 할 수 있습니다.


스팟 런을 참조하십시오

이 비디오는 초당 5.2 미터 (시간당 11.6 마일)의 지속 속도로 작동하는 스팟을 보여줍니다. 상자 밖에서 스팟의 최고 속도는 1.6m/s입니다.Rai의 반점은 4 배의 공장 속도를 3 배 이상 (!) 이상 가지고 있음을 의미합니다.

Spot을 실행하는 스팟이 빨리 이상하게 보이면 아마도 ~이다 이 로봇 개의 다리와 몸이 달리는 방식이 실제 개가 전혀 달리는 방식과는 다르다는 의미에서 이상합니다. “보행은 생물학적이지는 않지만 로봇은 생물학적이지 않습니다.”라고 설명합니다. Farbod FarshidianRai Institute의 로봇 주의자. “Spot의 액추에이터는 근육과 다르고 운동학은 다르므로 개가 빨리 달리는 데 적합한 보행 이이 로봇에 반드시 가장 좋은 것은 아닙니다.”

최고의 Farshidian은 스팟이 어떻게 움직이고 있는지 분류 할 수있는 것은 기술적으로 달리기로 바꾸는 비행 단계 (한 번에 4 피트에서 4 피트 모두에서 4 피트 모두가지면에서 4 피트 모두가있는)를 제외하고는 트로팅 보행과 다소 비슷하다는 것입니다. Farshidian 은이 비행 단계가 필요하다고 말합니다. 로봇은 속도를 유지하기에 충분히 발을 빠르게 앞으로 끌어 당기기 위해 그 시간이 필요하기 때문입니다. 이것은 로봇이“실행”하도록 명시 적으로 프로그래밍되지 않았다는 점에서“발견 된 행동”입니다.

강화 학습 대 모델 예측 제어

Boston Dynamics에서 로봇을 구입할 때 로봇을 제공하는 스팟 컨트롤러는 MPC (Model Predictive Control)를 기반으로하며, 여기에는 로봇의 역학을 최대한 근사하는 소프트웨어 모델을 만들 수 있습니다. 로봇이 실시간으로 수행하려는 작업에 대한 최적화 문제 해결. 로봇을 제어하는 ​​데 매우 예측 가능하고 신뢰할 수있는 방법이지만, 원래 소프트웨어 모델이 실제로 로봇의 한계를 넓힐 수있을 정도로 현실에 가깝지 않기 때문에 다소 단단합니다. 그리고 “좋아요, 내 로봇의 슈퍼 디테일 소프트웨어 모델을 만들고 한계를 그렇게 밀어 낼 것”이라고 말하면 최적화 문제로 인해 갇히게됩니다. 로봇이 실시간으로하고자하는 모든 것을 위해 해결해야하며, 모델이 더 복잡할수록 유용하기에 충분히 빠르게 수행하기가 더 어렵습니다. 반면에 강화 학습 (RL)은 배웁니다 오프라인. 원하는대로 모델의 복잡한 모델을 사용할 수 있으며, 시뮬레이션에서 필요한 시간을 마감하여 제어 정책을 훈련시켜 로봇에서 매우 효율적으로 실행할 수 있습니다.

시뮬레이션에서는 강력한 실제 성능을 위해 몇 개의 지점 (또는 수백 개의 지점)을 병렬로 교육 할 수 있습니다.로봇 공학 및 AI 연구소

Spot의 최고 속도의 예에서는 로봇에서 실시간으로 실행되는 모델 기반 제어 시스템 내의 모든 로봇 액추에이터에 대해 모든 마지막 세부 사항을 모델링 할 수 없습니다. 대신, 액추에이터가 실제로 무엇을하고 있는지에 대한 단순화 된 (일반적으로 매우 보수적 인) 가정이 이루어져 안전하고 신뢰할 수있는 성능을 기대할 수 있습니다.

Farshidian은 이러한 가정으로 인해 성능 제한이 실제로 무엇인지에 대한 유용한 이해를 개발하기가 어렵다고 설명합니다. “로봇 공학의 많은 사람들은 빠르게 달리기의 한계 중 하나는 작동 시스템의 토크와 속도를 최대에 부딪 칠 것임을 알고 있습니다. 따라서 사람들은 액추에이터의 데이터 시트를 사용하여 모델링하려고합니다. 우리에게 우리가 대답하고 싶은 질문은 다른 실제로 성능을 제한하는 현상.”

이러한 다른 현상을 찾는 것은 로봇의 실제 성능에서 배운 세부 액추에이터 모델과 같이 새로운 데이터를 강화 학습 파이프 라인에 가져 오는 것과 관련이있었습니다. Spot의 경우 고속 달리기에 대한 답변을 제공했습니다. Spot의 속도를 제한하는 것은 액추에이터 자체가 아니라 로봇의 운동학이 아니라는 것이 밝혀졌습니다. 단순히 배터리는 충분한 전력을 공급할 수없는 배터리였습니다. Farshidian은“이것은 나에게 놀라운 일이었습니다. 우리는 액추에이터 한계를 먼저 치겠다고 생각했기 때문에”라고 말합니다.

Spot ‘s Power System은 추가 Wiggle Room이있을 수있을 정도로 복잡하며 Farshidian은 5.2m/s를 넘어 Spot의 최고 속도를 밀지 못하게 한 유일한 것은 배터리 전압에 액세스 할 수 없었기 때문에 그렇지 않았습니다. 해당 실제 데이터를 RL 모델에 통합 할 수 있습니다. “우리가 더 강력한 배터리가 있다면 더 빨리 작동 할 수있었습니다. 그리고 당신이 시뮬레이터에서 그 현상을 모델링한다면, 나는 우리가 더 멀리 밀 수 있다고 확신합니다.”

Farshidian은 Rai의 기술이 단순히 빠르게 달리는 것 이상의 것이며, 배터리 수명을 극대화하기 위해 더 효율적으로 움직이거나 사무실이나 가정 환경에서 더 조용히 일하는 데 적용될 수도 있다고 강조합니다. 본질적으로, 이것은 로봇 시스템의 기능을 확장하는 새로운 방법을 찾을 수있는 일반화 가능한 도구입니다.. 실제 데이터가 시뮬레이션 된 로봇을 더 좋게 만드는 데 사용되면 시뮬레이션 된 기술이 실제 로봇으로 성공적으로 전달 될 것이라는 확신을 가지고 시뮬레이션에 더 많은 작업을 요청할 수 있습니다.

울트라 모빌리티 차량 : 로봇 자전거를 가르치십시오

강화 학습은 로봇의 성능을 극대화하는 데 좋을뿐만 아니라 그 성능을보다 신뢰할 수 있습니다. RAI Institute는 사내에서 발명 한 완전히 새로운 종류의 로봇을 실험 해 왔습니다. Ultra Mobility Vehicle이라는 작은 점프 자전거 또는 UMV는 본질적으로 동일한 RL 파이프 라인을 사용하여 Parkour를 수행하도록 훈련되었습니다. Spot의 고속 달리기에 사용되었습니다.

UMV가 넘어지지 않도록 독립적 인 물리적 안정화 시스템 (자이로 스코프와 같은)은 없습니다. 앞뒤로 움직이고 앞 바퀴를 돌릴 수있는 일반적인 자전거 일뿐입니다. 그런 다음 가능한 한 많은 질량이 상단 비트에 포장되어 액추에이터가 빠르게 위아래로 가속 할 수 있습니다. “우리는이 비디오에서 두 가지를 보여줍니다 마르코 허터Rai Institute의 취리히 사무소 이사. “하나는 강화 학습이 다양한 상황에서 UMV를 운전 능력에서 매우 강력하게 만드는 방법입니다. 둘째, 로봇의 역동적 인 기능을 이해하면 로봇 자체보다 높은 테이블을 뛰어 넘는 등 새로운 일을 할 수 있습니다.”

“이 모든 것에서 RL의 핵심은 새로운 행동을 발견하고 모델링하기 어려운 조건 하에서 강력하고 신뢰할 수있는 것입니다. 그것이 RL이 정말로 빛나는 곳입니다.” – 마르코 허터, 라이 연구소

점프만큼 인상적인 것은 허터의 경우, 뒤로 타는 것과 같이 상당히 단순 해 보일 수있는 기동을하기가 어렵습니다 (더 어렵지는 않지만). Hutter는“뒤로가는 것은 매우 불안정합니다. “적어도 우리에게는 클래식으로 그렇게 할 수 없었습니다. [MPC] 컨트롤러, 특히 거친 지형 또는 교란이있는 컨트롤러.”

RAI Institute가 가까운 시일 내에 시연 할 수있을 것이라고 말하면서 적절한 자전거 파커를하기 위해 실험실과 지형으로이 로봇을 꺼내는 것이 진행 중이지만,이 특정 하드웨어 플랫폼이 할 수있는 일에 관한 것이 아닙니다. 무엇에 대해 어느 로봇은 RL 및 기타 학습 기반 방법을 통해 수행 할 수 있다고 Hutter는 말합니다. “여기서 더 큰 그림은 그러한 로봇 시스템의 하드웨어가 이론적으로 클래식 제어 알고리즘으로 달성 할 수 있었던 것보다 훨씬 더 많은 일을 할 수 있다는 것입니다. 하드웨어 시스템에서 이러한 숨겨진 한계를 이해하면 성능을 향상시키고 제어에 대한 경계를 계속 추진할 수 있습니다.”

SIM에서 계단을 내려가도록 UMV를 가르치면 모든 각도에서 계단을 다룰 수있는 실제 로봇이 생깁니다.로봇 공학 및 AI 연구소

모든 곳에서 로봇을위한 강화 학습

불과 몇 주 전에 Rai Institute는 Boston Dynamics와 새로운 파트너십을 발표했습니다. “강화 학습을 통해 휴머노이드 로봇을 발전시키기 위해.” 휴머노이드는 또 다른 종류의 로봇 플랫폼 일뿐입니다. 그러나 이러한 수준의 복잡성에 대한 모델 예측 제어의 한계를 고려할 때, 특히 이러한 접근 방식이 일반화 능력으로 인해 이미 간소화 된 경우 강화 학습 접근법이 거의 불가피 해 보입니다.

Hutter는“연구소로서 우리가 가지고있는 야망 중 하나는 모든 종류의 다른 플랫폼에 걸쳐있는 솔루션을 갖는 것입니다. “이것은 도구 구축, 인프라 구축, 더 넓은 맥락에서 수행 할 수있는 기초 구축에 관한 것입니다. 따라서 휴머노이드뿐만 아니라 차량을 운전하면 4 배가되었습니다. 그러나 RL 연구를 수행하고 멋진 첫 번째 개념 증명을 보여주는 것은 한 가지입니다. 모든 조건 하에서 현실 세계에서 작동하는 동안 성능의 경계를 높이는 것은 다른 것입니다.”

시뮬레이션은 로봇에 매우 친숙하기 때문에 시뮬레이션에서 훈련 된 로봇에게는 기술을 현실 세계로 전송하는 데 항상 어려움을 겪었습니다. Farshidian은“충분한 시간을 보내면 결국 로봇이 원하는대로 할 수있는 보상 기능을 제시 할 수 있습니다. 강화 학습은 시뮬레이터에서 결함을 찾고 작업을 수행하기 위해 활용하는 데 매우 능숙하기 때문에 SIM 동작을 하드웨어로 전송하려는 경우 종종 실패합니다.”

새로운 도구,보다 정확한 역학 및 문제를 해결할 수있는 많은 컴퓨팅 능력으로 시뮬레이션이 훨씬 나아졌습니다. Hutter는“많은 것을 시뮬레이션하고 거의 많은 데이터를 거의 무료로 생성 할 수있는 것은 매우 강력한 능력입니다. 그러나 그 데이터의 유용성은 현실과 관련이 있으며, 시뮬레이션하는 것이 강화 학습 접근 방식이 실제로 현실을 위해 해결할 정도로 정확한지 확인합니다. Hutter는 실제 하드웨어에 물리적 데이터를 수집하는 것이 시뮬레이션으로 되돌려 놓는 것은 4 배의 실행 또는 자전거 또는 휴머노이드에 적용되는지에 관계없이 매우 유망한 접근법이라고 믿고 있습니다. “시뮬레이션과 현실의 두 가지의 조합은 내가 가설을 세울 것입니다.”

Share post:

Subscribe

Popular

More like this
Related

금융 서비스를위한 Microsoft 클라우드 AI 채택 및 혁신을 촉진하는 방법

금융 서비스 부문에서 생성 AI 채택이 가속화함에 따라 전문가와...

새로운 레벨 잠금 해제

오늘 Microsoft가 출시되었습니다 최초의 생성 AI 모델 인...

새로운 파트너십에서 Massrobotics 스타트 업을 지원하는 TC

인도 최대의 다국적 비즈니스 그룹 인 Tata Group의 일부인...

인간형 로봇 그림 Helix VLA 모델을 사용하여 가정용 집안일을 보여줍니다.

그림 AI Inc.는 어제 간단한 가정 작업의 나선 시각적...