다양한 실제 환경에서 작업하려면 로봇이 일반주의 정책을 배워야 합니다. 이를 위해 매사추세츠 공과대학 컴퓨터 과학 및 인공지능 연구소(MIT CSAIL)의 연구원들은 Real-to-Sim-to-Real 모델을 만들었습니다.
많은 개발자의 목표는 로봇이 모든 조건에서 어디서나 작동할 수 있도록 하드웨어와 소프트웨어를 만드는 것입니다. 그러나 한 사람의 집에서 작동하는 로봇은 모든 이웃 집에서 작동하는 방법을 알 필요가 없습니다.
CSAIL과 함께 팀 특정 환경에 대한 로봇 정책을 쉽게 훈련하는 방법인 RialTo에 집중하기로 했습니다. 연구원들은 동일한 수의 데모로 모방 학습보다 정책을 67% 개선했다고 말했습니다.
이 시스템은 토스터를 여는 것, 선반에 책을 놓는 것, 접시를 선반에 놓는 것, 머그잔을 선반에 놓는 것, 서랍을 여는 것, 캐비닛을 여는 것과 같은 일상적인 작업을 수행하도록 훈련되었습니다.
“우리는 로봇이 단일 환경 내에서 교란, 방해, 다양한 조명 조건 및 객체 자세의 변화에도 불구하고 예외적으로 잘 작동하도록 하는 것을 목표로 합니다.” Improbable AI 연구실의 MIT CSAIL 연구 보조원이자 이 작업에 대한 새로운 논문의 주저자인 Marcel Torne Villasevil의 말입니다.
“우리는 컴퓨터 비전의 최신 발전을 사용하여 즉석에서 디지털 트윈을 만드는 방법을 제안합니다.”라고 그는 설명했습니다. “누구나 휴대폰만 있으면 실제 세계의 디지털 복제본을 캡처할 수 있으며, 로봇은 GPU 병렬화 덕분에 실제 세계보다 훨씬 빠르게 시뮬레이션된 환경에서 훈련할 수 있습니다. 우리의 접근 방식은 몇 가지 실제 데모를 활용하여 훈련 프로세스를 시작함으로써 광범위한 보상 엔지니어링의 필요성을 제거합니다.”
RialTo는 재구성된 장면에서 정책을 구축합니다.
Torne의 비전은 흥미진진하지만 RialTo는 단순히 휴대전화를 흔들고 홈 로봇을 호출하는 것보다 더 복잡합니다. 먼저, 사용자는 NeRFStudio, ARCode 또는 Polycam과 같은 도구를 사용하여 선택한 환경을 스캔하기 위해 기기를 사용합니다.
장면이 재구성되면 사용자는 RialTo 인터페이스에 업로드하여 세부적인 조정을 하고 로봇에 필요한 관절을 추가하는 등의 작업을 수행할 수 있습니다.
다음으로, 재정의된 장면이 내보내져 시뮬레이터로 가져옵니다. 여기서 목표는 실제 세계의 행동과 관찰을 기반으로 정책을 만드는 것입니다. 이러한 실제 세계 데모는 시뮬레이션강화 학습을 위한 귀중한 데이터를 제공합니다.RL).
“이것은 시뮬레이션과 현실 세계에서 모두 잘 작동하는 강력한 정책을 만드는 데 도움이 됩니다.”라고 Torne은 말했습니다. “강화 학습을 사용하는 향상된 알고리즘은 이 프로세스를 안내하여 시뮬레이터 외부에서 적용될 때 정책이 효과적임을 보장합니다.”
연구원들이 모델 성능을 테스트합니다
테스트에서 MIT CSAIL은 RialTo가 통제된 실험실 환경이든 예측할 수 없는 실제 환경이든 다양한 작업에 대해 강력한 정책을 만들었다는 것을 발견했습니다. 각 작업에 대해 연구자들은 세 가지 증가하는 난이도 수준에서 시스템의 성능을 테스트했습니다. 즉, 객체 포즈를 무작위로 지정하고, 시각적 방해 요소를 추가하고, 작업 실행 중에 물리적 교란을 적용했습니다.
“실제 세계에 로봇을 배치하기 위해 연구자들은 전통적으로 전문가 데이터에서 모방 학습과 같은 방법에 의존해 왔는데, 이는 비용이 많이 들 수 있고, 강화 학습은 안전하지 않을 수 있습니다.” 논문에 참여하지 않은 워싱턴 대학교의 컴퓨터 과학 박사 과정 학생인 조이 첸의 말이다. “RialTo는 새로운 real-to-sim-to-real 파이프라인을 통해 실제 RL의 안전 제약과 데이터 기반 학습 방법에 대한 효율적인 데이터 제약을 모두 직접 해결합니다.”
“이 새로운 파이프라인은 실제 배치 전에 시뮬레이션에서 안전하고 견고한 훈련을 보장할 뿐만 아니라 데이터 수집의 효율성을 크게 개선합니다.” 그녀는 덧붙여 말했습니다. “RialTo는 로봇 학습을 크게 확장할 수 있는 잠재력이 있으며 로봇이 복잡한 실제 시나리오에 훨씬 더 효과적으로 적응할 수 있도록 합니다.”
연구자들은 이 시스템이 실제 데이터와 결합되었을 때 전통적인 모방 학습 방법보다 우수한 성과를 보였으며, 특히 시각적으로 산만하거나 물리적으로 방해받는 상황에서 그 성과가 더 컸다고 밝혔습니다.
MIT CSAIL, 로봇 훈련 작업 계속
지금까지의 결과는 유망하지만 RialTo는 한계가 없는 것은 아닙니다. 현재 이 시스템은 완전히 훈련되는 데 3일이 걸립니다. 이를 가속화하기 위해 팀은 기초 모델을 사용하여 기본 알고리즘을 개선하고자 합니다.
시뮬레이션에서의 훈련에도 한계가 있습니다. 시뮬레이션에서 실제 전이로의 전환과 변형 가능한 물체나 액체를 시뮬레이션하는 것은 여전히 어렵습니다. MIT CSAIL 팀은 다양한 교란에 대한 견고성을 유지하면서도 새로운 환경에 대한 모델의 적응력을 개선하기 위해 노력함으로써 이전의 노력을 바탕으로 발전시킬 계획이라고 밝혔습니다.
“저희의 다음 노력은 사전 훈련된 모델을 사용하여 학습 과정을 가속화하고, 인간의 입력을 최소화하고, 더 광범위한 일반화 기능을 달성하는 접근 방식입니다.”라고 Torne은 말했습니다.
Torne은 다음과 같이 썼습니다. 종이 워싱턴 대학교 조교수인 Abhishek Gupta를 포함한 수석 저자와 함께 풀킷 아그라왈MIT 전기공학 및 컴퓨터과학(EECS)과 조교수입니다.
그 연구실 내의 다른 4명의 CSAIL 구성원도 인정받았습니다: EECS 박사 과정 학생 Anthony Simeonov SM ’22, 연구 조수 Zechu Li, 학부 과정 학생 April Chan, 그리고 Tao Chen 박사 과정 ’24. 이 연구는 부분적으로 Sony Research Award, 미국 정부, 현대자동차(주)의 도움으로 기이한 (워싱턴 체현 지능 및 로봇 개발) 연구실
게시물 MIT CSAIL은 Real-to-Sim-to-Real을 사용하여 로봇에게 집안일을 가르치고 있습니다. 처음 등장 로봇 리포트.