AI 뉴스허브

MIT: LucidSim 교육 시스템은 로봇이 Sim2Real 격차를 줄이는 데 도움이 됩니다.

MIT: LucidSim 교육 시스템은 로봇이 Sim2Real 격차를 줄이는 데 도움이 됩니다.

로봇공학자에게 있어서 다른 모든 것보다 중요한 과제는 바로 일반화 – 모든 환경이나 조건에 적응할 수 있는 기계를 만드는 능력입니다. 1970년대 이후 이 분야는 정교한 프로그램 작성에서 딥 러닝 사용, 인간 행동에서 직접 학습하도록 로봇을 가르치는 것으로 발전했습니다. 그러나 중요한 병목 현상은 여전히 ​​남아 있습니다. 바로 데이터 품질입니다. 개선을 위해 로봇은 능력의 한계를 뛰어넘어 숙달된 상태에서 작동하는 시나리오에 직면해야 합니다. 이 프로세스에는 전통적으로 인간의 감독이 필요하며 작업자는 로봇의 능력을 확장하기 위해 조심스럽게 로봇에 도전합니다. 로봇이 더욱 정교해짐에 따라 이러한 실습 접근 방식은 확장 문제에 직면하게 됩니다. 즉, 고품질 훈련 데이터에 대한 수요가 인간이 제공할 수 있는 능력을 훨씬 능가합니다.

MIT CSAIL 연구원 팀은 실제 환경에서 적응형 지능형 기계의 배포를 크게 가속화할 수 있는 로봇 훈련에 대한 접근 방식을 개발했습니다. ‘라고 불리는 새로운 시스템루시드심,”는 생성 AI 및 물리 시뮬레이터의 최신 발전을 사용하여 다양하고 현실적인 가상 훈련 환경을 만들어 로봇이 실제 데이터 없이도 어려운 작업에서 전문가 수준의 성능을 달성하도록 돕습니다.

LucidSim은 물리 시뮬레이션과 생성 AI 모델을 결합하여 로봇 공학의 가장 지속적인 과제 중 하나를 해결합니다. 시뮬레이션 현실 세계로.

LucidSim의 수석 연구원이자 MIT CSAIL 박사후 연구원인 Ge Yang은 “로봇 학습의 근본적인 과제는 오랫동안 ‘시뮬레이션된 훈련 환경과 복잡하고 예측할 수 없는 현실 세계 간의 차이’인 ‘시뮬레이션과 실제 간 격차’였습니다.”라고 말했습니다. “이전 접근 방식은 깊이 센서에 의존하는 경우가 많았는데, 이로 인해 문제는 단순화되었지만 중요한 실제 복잡성은 놓쳤습니다.”

다중 갈래 시스템은 다양한 기술이 혼합된 것입니다. 기본적으로 LucidSim은 대규모 언어 모델을 사용하여 환경에 대한 다양한 구조화된 설명을 생성합니다. 그런 다음 이러한 설명은 생성 모델을 사용하여 이미지로 변환됩니다. 이러한 이미지가 실제 물리학을 반영하도록 하기 위해 기본 물리 시뮬레이터를 사용하여 생성 프로세스를 안내합니다.

관련된: Agility Robotics가 Digit의 Sim2Real 격차를 해소한 방법

아이디어의 탄생: 부리토에서 획기적인 제품까지

LucidSim에 대한 영감은 예상치 못한 곳에서 나왔습니다. 매사추세츠주 케임브리지에 있는 Beantown Taqueria 밖에서의 대화였습니다.

​​”우리는 비전 기능을 갖춘 로봇에게 인간의 피드백을 사용하여 개선하는 방법을 가르치고 싶었습니다. 그러나 우리는 처음부터 순수한 비전 기반 정책이 없다는 것을 깨달았습니다.”라고 MIT 학부생이자 LucidSim의 공동 책임자인 Alan Yu가 말했습니다. “우리는 길을 걸으면서 계속 그 이야기를 하다가 타케리아 밖에서 30분 정도 멈춰 섰습니다. 그곳이 우리의 순간을 보냈던 곳입니다.”


2025 Robotics Summit 프레젠테이션을 위한 사이트 광고입니다.연설 신청.


데이터를 구성하기 위해 팀은 시뮬레이션된 장면에서 기하학적 정보를 제공하는 깊이 맵과 이미지의 다양한 부분에 레이블을 지정하는 의미 마스크를 추출하여 사실적인 이미지를 생성했습니다. 그러나 그들은 이미지 콘텐츠의 구성을 엄격하게 제어하면 모델이 동일한 프롬프트를 사용하여 서로 다르지 않은 유사한 이미지를 생성할 수 있다는 것을 빨리 깨달았습니다. 그래서 그들은 ChatGPT에서 다양한 텍스트 프롬프트를 소스로 제공하는 방법을 고안했습니다.

그러나 이 접근 방식으로는 단일 이미지만 생성되었습니다. 로봇에 대한 작은 “경험” 역할을 하는 짧고 일관된 비디오를 만들기 위해 과학자들은 “DIM(Dreams In Motion)”이라는 팀이 만든 또 다른 새로운 기술에 이미지 마법을 결합했습니다. 시스템은 프레임 간 각 픽셀의 움직임을 계산하여 생성된 단일 이미지를 짧은 다중 프레임 비디오로 변환합니다. Dreams In Motion은 장면의 3D 기하학과 로봇 관점의 상대적인 변화를 고려하여 이를 수행합니다.

“우리는 2017년에 개발된 방법인 도메인 무작위화(주변 환경의 물체에 임의의 색상과 패턴을 적용하는 방법)보다 성능이 뛰어납니다. 이는 요즘에도 여전히 선호되는 방법으로 간주됩니다.”라고 Yu는 말합니다. “이 기술은 다양한 데이터를 생성하지만 현실성이 부족합니다. LucidSim은 다양성과 현실성 문제를 모두 해결합니다. 훈련 중에 실제 세계를 보지 않고도 로봇이 실제 환경에서 장애물을 인식하고 탐색할 수 있다는 점이 흥미롭습니다.”

팀은 LucidSim을 주요 테스트베드인 4족 보행 및 파쿠르 외부 도메인에 적용할 수 있는 가능성에 특히 기대하고 있습니다. 한 가지 예는 모바일 로봇이 개방된 공간에서 물체를 처리하는 작업을 수행하는 모바일 조작이며, 색상 인식도 중요합니다.

Yang은 “오늘날에도 이 로봇은 실제 시연을 통해 학습합니다.”라고 말했습니다. “시연을 수집하는 것은 쉽지만 실제 로봇 원격 조작 설정을 수천 가지 기술로 확장하는 것은 인간이 물리적으로 각 장면을 설정해야 하기 때문에 어렵습니다. 우리는 데이터 수집을 가상 환경으로 이동함으로써 이를 더 쉽게 만들고 질적으로 더 확장성을 높일 수 있기를 바랍니다.”

MIT 연구진은 4족 보행 로봇인 Unitree Robotics Go1을 사용했습니다. | 크레딧: MIT CSAIL

팀은 전문 교사가 로봇이 배울 수 있는 기술을 보여주는 대안에 대해 LucidSim을 테스트했습니다. 결과는 놀라웠습니다. 전문가가 훈련한 로봇은 어려움을 겪었고 단지 15%의 시간 동안 성공했으며 전문가 훈련 데이터의 양을 4배로 늘려도 거의 변화가 없었습니다. 그러나 로봇이 LucidSim을 통해 자체 훈련 데이터를 수집하자 이야기는 극적으로 바뀌었습니다. 데이터 세트 크기를 두 배로 늘리는 것만으로도 성공률이 88%로 높아졌습니다.

Yang은 “그리고 로봇에게 더 많은 데이터를 제공하면 성능이 단조롭게 향상됩니다. 결국 학생은 전문가가 됩니다”라고 말했습니다.

이번 연구에 참여하지 않은 스탠포드 대학 전기 공학과의 Shuran Song 조교수는 “로봇공학의 시뮬레이션을 실제로 전환하는 데 있어 주요 과제 중 하나는 시뮬레이션된 환경에서 시각적 현실성을 달성하는 것입니다.”라고 말했습니다. “LucidSim 프레임워크는 생성 모델을 사용하여 모든 시뮬레이션에 대해 다양하고 매우 사실적인 시각적 데이터를 생성함으로써 우아한 솔루션을 제공합니다. 이 작업을 통해 가상 환경에서 훈련된 로봇을 실제 작업에 배치하는 속도가 크게 빨라질 수 있습니다.”

캠브리지의 거리부터 최첨단 로봇 공학 연구에 이르기까지 LucidSim은 복잡한 세계에 발을 디디지 않고도 복잡한 세계를 탐색하는 방법을 배우는 지능적이고 적응 가능한 차세대 기계를 향한 길을 닦고 있습니다.

유와 양이 썼다. 종이 4명의 동료 CSAIL 계열사: 기계공학 박사후 연구원 Ran Choi; 학부 연구원 Yajvan Ravan; John Leonard, MIT 기계공학부 기계 및 해양공학 교수 Samuel C. Collins; 그리고 MIT 부교수 Phillip Isola.

편집자 주: 이 기사는 다음에서 재출판되었습니다. CSAIL과 함께

게시물 MIT: LucidSim 교육 시스템은 로봇이 Sim2Real 격차를 줄이는 데 도움이 됩니다. 처음 등장한 로봇 보고서.

Exit mobile version