로봇 공학의 주요 과제는 모든 새로운 작업 및 환경에 대한 데이터 세트를 수집하고 라벨링하려는 막대한 노력없이 로봇이 새로운 작업을 수행하도록 교육하는 것입니다. Nvidia의 최근 연구 노력은 생성 AINVIDIA COSMOS와 같은 World Foundation 모델 및 NVIDIA ISAAC GR00T-MIMIC 및 GR00T-DREAMS와 같은 데이터 생성 청사진.
NVIDIA는 최근 연구가 어떻게 확장 가능한 방법을 다루었습니다 합성 데이터 생성 및 World Foundation 모델을 사용하여 로봇 모델 교육 워크 플로우 : :
- 드림 겐: 연구 재단 NVIDIA ISAAC GR00T-DREAMS 청사진.
- gr00t n1: 로봇이 실제, 인간 및 합성 데이터의 다양한 작업 및 구체 예에서 일반 기술을 배울 수있는 개방형 기초 모델.
- 비디오에서 잠복되는 잠재적 인 행동: 수동 액션 레이블없이 대규모 비디오에서 로봇 관련 액션을 배우는 감독되지 않은 방법.
- Sim-and Real 공동 훈련: 시뮬레이션되고 실제 로봇 데이터를 결합하여보다 강력하고 적응 가능한 로봇 정책을 구축하는 교육 접근법.
로봇 공학을위한 세계 재단 모델
코스모스 세계 재단 모델 (WFMS)는 미래의 세계 주를 예측하고 단일 입력 이미지에서 비디오 시퀀스를 생성하여 로봇을 가능하게하기 위해 수백만 시간의 실제 데이터에 대한 교육을받습니다. 자율 주행 차 다가오는 이벤트를 기대합니다. 이 예측 기능은 합성 데이터 생성 파이프 라인에 중요하며, 다양한 고급 교육 데이터의 빠른 생성을 용이하게합니다.
이것 WFM 접근 방식은 크게 가속화 될 수 있습니다 로봇 학습모델 견고성을 향상시키고, 수개월의 수동 노력에서 몇 시간으로 몇 시간으로 개발 시간을 줄입니다. nvidia.
드림 겐
드림 겐 대규모 인간 수집의 높은 비용과 노동을 다루는 합성 데이터 생성 파이프 라인입니다. 원격 수술 로봇 학습을위한 데이터. 그것은의 기초입니다 NVIDIA ISAAC GR00T-DREAMSWorld Foundation 모델을 사용하여 광대 한 합성 로봇 궤적 데이터를 생성하기위한 청사진.
전통적인 로봇 파운데이션 모델에는 모든 새로운 작업 및 환경에 대한 광범위한 수동 데모가 필요하며 확장 할 수 없습니다. 시뮬레이션 기반 대안은 종종 심각한 현실 간격으로 고통 받고 있으며 수동 엔지니어링이 필요합니다.
Dreamgen은 WFM을 사용하여 최소한의 인간 입력으로 현실적이고 다양한 교육 데이터를 만들어 이러한 과제를 극복합니다. 이 접근법은 행동, 환경 및 로봇 실시 예의 확장 가능한 로봇 학습과 강력한 일반화를 가능하게합니다.
DreamGen 파이프 라인은 네 가지 주요 단계로 구성됩니다.
- 훈련 후 세계 재단 모델 : World Foundation 모델과 같은 적응 Cosmos-Predict2 작은 실제 데모 세트를 사용하여 대상 로봇에. Cosmos-Predict2는 텍스트 (텍스트-이미지)에서 고품질 이미지를 생성 할 수 있으며 이미지 또는 비디오 (비디오-세계)에서 시각적 시뮬레이션을 생성 할 수 있습니다.
- 합성 비디오 생성 : 후 훈련 된 모델을 사용하여 이미지 및 언어 프롬프트의 새로운 작업 및 환경을위한 다양하고 사진적인 로봇 비디오를 만듭니다.
- 유사 행동 추출 : 잠재적 인 동작 모델 또는 역 동적 모델 (IDM)을 적용하여 이러한 비디오를 레이블이 붙은 액션 시퀀스 (신경 궤적)로 바꿉니다.
- 로봇 정책을 기차 : 결과적인 합성 궤적을 사용하여 Visuomotor 정책을 훈련시켜 로봇이 새로운 행동을 수행하고 보이지 않는 시나리오로 일반화 할 수 있도록합니다.
Dreamgen 벤치
Dreamgen 벤치 비디오 생성 모델이 특정 로봇 실시 예에 효과적으로 적응하는 동안 강성 물리학을 내재화하고 새로운 객체, 동작 및 환경으로 일반화하는 방법을 평가하기 위해 설계된 특수 벤치 마크입니다. Nvidia Cosmos, WAN 2.1, Hunyuan 및 Cogvideox의 4 가지 주요 세계 재단 모델을 테스트합니다.
- 지시 다음 : Dreamgen Bench는 생성 된 비디오가 비전 언어 모델을 사용하여 평가 한 “양파 선택”과 같은 작업 지침을 정확하게 반영하는지 평가합니다.VLMS VLMS VLMS) Qwen-VL-2.5 및 인간 주석기처럼.
- 물리학 다음 : Videocon-Physics 및 Qwen-VL-2.5와 같은 도구를 사용하여 물리적 현실주의를 정량화하여 비디오가 실제 물리학에 순종하도록합니다.
아래 그래프에서 볼 수 있듯이 Dreamgen 벤치에서 더 높은 점수를받는 모델은 더 현실적이고 지시가 많은 합성 데이터를 생성합니다. 로봇이 실제 조작 작업에 대해 훈련 및 테스트 될 때 더 나은 성능을 제공합니다. 이 긍정적 인 관계는 강력한 WFM에 대한 투자가 합성 훈련 데이터의 품질을 향상시킬뿐만 아니라 실제로보다 유능하고 적응 가능한 로봇으로 직접 변환 함을 보여줍니다.
NVIDIA ISAAC GR00T-DREAMS
Isaac Gr00t-DreamsDreamgen Research를 기반으로하는 것은 로봇 동작에 대한 합성 궤적 데이터의 대규모 데이터 세트를 생성하기위한 워크 플로입니다. 이 데이터 세트는 실제 로봇을 훈련시키는 데 사용되며 실제 작업 데이터 수집과 비교하여 상당한 시간과 수동 노력을 절약 할 수 있다고 Nvidia는 주장했습니다.
gr00t-dreams를 사용합니다 코스모스 예측 2 WFM 그리고 코스모스 이유 다른 작업 및 환경에 대한 데이터를 생성합니다. 코스모스 이유 모델에는 사용자 프롬프트에 대한 물리적으로 근거한 응답을 생성하는 멀티 모달 LLM (대형 언어 모델)이 포함됩니다.
훈련 로봇을위한 기초 모델 및 워크 플로
NVIDIA에 따르면 WFM에서 생성 된 데이터를 사용하여 VLA (Vision-Language-Action) 모델은 보이지 않는 환경에서 새로운 행동 및 운영을 가능하게하기 위해 WFM에서 생성 된 데이터를 사용하여 교육을받을 수 있다고 NVIDIA는 설명했다.
NVIDIA Research는 GR00T-DREAMS Blueprint를 사용하여 합성 훈련 데이터를 생성하여 단 36 시간 만에 GR00T N1의 업데이트 인 GR00T N1.5를 개발했습니다. 이 프로세스는 수동 인간 데이터 수집을 사용하여 거의 3 개월이 걸렸을 것입니다.
gr00t n1회사는 일반인 휴머노이드 로봇의 개방형 기초 모델은 로봇 공학과 AI의 세계에서 큰 획기적인 획기적인 것으로 나타났습니다. a 이중 시스템 아키텍처 인간인지에서 영감을 얻은 Gr00t N1 통일 비전, 언어 및 행동으로 로봇이 지침을 이해하고 환경을 인식하며 복잡한 다단계 작업을 실행할 수 있도록합니다.
GR00T N1은 LAPA (일반 액션 모델에 대한 잠재적 액션 프리 트레인)와 같은 기술을 기반으로 표지되지 않은 인간 비디오와 SIM-and REAL 공동 훈련과 같은 접근 방식을 배우는데, 이는 합성 및 실제 데이터를 더 강력하게 일반화하기 위해 혼합합니다. 우리는 나중에 Lapa와 Sim-and Real 공동 훈련에 대해 배울 것입니다.
이러한 혁신을 결합함으로써 GR00T N1은 지침을 따르고 작업을 실행하는 것이 아니라 일반 주의자에 대한 새로운 벤치 마크를 설정합니다. 휴머노이드 Nvidia는 로봇은 복잡하고 끊임없이 변화하는 환경에서 달성 할 수 있다고 말했다.
GR00T N1.5 원래 GR00T N1을 기반으로하는 일반인 휴머노이드 로봇을위한 업그레이드 된 오픈 파운데이션 모델로, 실제, 시뮬레이션 및 Dreamgen 생성 합성 데이터의 다양한 혼합으로 훈련 된 정제 된 VLM을 특징으로합니다.
GR00T N1.5는 아키텍처 및 데이터 품질이 향상되면서 더 높은 성공률, 더 나은 언어 이해 및 새로운 객체 및 작업에 대한 일반화를 제공하여 고급 로봇 조작을위한보다 강력하고 적응 가능한 솔루션이됩니다.
비디오에서 잠복되는 잠재적 인 행동
라파 비싸고 수동으로 레이블이 지정된 로봇 액션 데이터가 필요하지 않은 VLA 모델을 미리 훈련하는 방법입니다. Lapa는 181,000 개가 넘는 표지되지 않은 인터넷 비디오를 사용하여 효과적인 표현을 배우기 위해 181,000 개가 넘는 표지되지 않은 인터넷 비디오를 사용합니다.
이 방법은 실제 작업에서 고급 모델보다 6.22%의 성능 향상을 제공하고 30 배 이상의 프리 트레인 효율성을 달성하여 확장 가능하고 강력한 로봇을 훨씬 더 접근 가능하고 효율적으로 학습 할 수 있다고 Nvidia는 말했다.
라파 파이프 라인은 3 단계 프로세스를 통해 작동합니다.
- 잠재 행동 양자화 : VQ-VAE (Vector Quantized Variational Autoencoder) 모델은 비디오 프레임 사이의 전환을 분석하여 파악하거나 쏟아지는 것과 같은 원자 행동의 어휘를 만듭니다. 잠재적 인 행동은 복잡한 로봇 행동이나 움직임을 요약하는 저차원, 학습 된 표현으로, 고차원 행동을보다 쉽게 제어하거나 모방 할 수 있습니다.
- 잠재적 인 전제 : VLM은 동작 클로닝을 사용하여 미리 훈련되어 비디오 관찰 및 언어 지침을 기반으로 첫 번째 단계에서 이러한 잠재적 행동을 예측합니다. 동작 클로닝은 모델이 데모 데이터의 예를 사용하여 관찰을 동작에 매핑하여 동작을 복사하거나 모방하는 법을 배우는 방법입니다.
- 로봇 후 훈련 : 그런 다음 사전 예방 모델은 소형 라벨이 붙은 데이터 세트를 사용하여 실제 로봇에 적응하여 잠재적 인 동작을 물리적 명령에 매핑하기 위해 교육을 게시합니다.
SIM-and REAL 공동 훈련 워크 플로
로봇 정책 교육은 두 가지 중요한 과제에 직면 해 있습니다. 실제 데이터 수집 비용이 높고 정책이 훈련 된 “현실 격차” 시뮬레이션 실제 물리적 환경에서는 종종 성능이 좋지 않습니다.
그만큼 Sim-and Real 공동 훈련 워크 플로는 소규모 실제 로봇 데모를 많은 양의 시뮬레이션 데이터와 결합하여 이러한 문제를 해결합니다. 이 접근법은 강력한 정책을 교육하면서 비용을 효과적으로 줄이고 현실 격차를 해소 할 수 있습니다.
워크 플로의 주요 단계는 다음과 같습니다.
- 작업 및 장면 설정 : 실제 작업 설정 및 작업에 대한 사전 시뮬레이션 데이터 세트 선택.
- 데이터 준비 : 이 데이터 준비 단계에서 실제 로봇에서 실제 시연이 수집되는 반면, 추가 시뮬레이션 시연은 작업 인식 “디지털 사촌”으로, 실제 작업과 밀접하게 일치하고 다양한 작업에 대한 사전 시뮬레이션으로 생성됩니다.
- 공동 훈련 매개 변수 튜닝 : 그런 다음 이러한 서로 다른 데이터 소스는 카메라 관점을 정렬하고 시뮬레이션보다는 시뮬레이션 다양성을 극대화하는 데 중점을 두어 최적화 된 공동 훈련 비율로 혼합됩니다. 마지막 단계는 실제 데이터 및 시뮬레이션 된 데이터를 모두 사용하여 배치 샘플링 및 정책 공동 훈련을 포함하여 로봇에 배치 된 강력한 정책을 초래합니다.
아래 이미지에서 볼 수 있듯이 실제 시연의 수를 늘리면 실제 및 공동 훈련 된 정책 모두의 성공률을 향상시킬 수 있습니다. 400 개의 실제 시연이 있더라도 공동 훈련 된 정책은 실제 정책보다 평균 38%를 능가하여 SI를 보여줍니다. M-and REAL 공동 훈련은 데이터가 풍부한 설정에서도 유익합니다.
로봇 공학 생태계는 새로운 모델을 채택하기 시작합니다
주요 조직은 NVIDIA Research의 이러한 워크 플로를 채택하여 개발을 가속화하고 있습니다. GR00T N 모델의 얼리 어답터는 다음과 같습니다.
- aeirobot: 모델을 사용하여 산업용 로봇이 복잡한 픽 앤 플레이스 작업을위한 자연 언어를 이해할 수 있도록합니다.
- 폭스 링크: 산업용 로봇 암의 유연성과 효율성을 향상시키기 위해 모델을 활용합니다.
- 라이트 휠: 모델을 사용하여 공장에서 휴머노이드 로봇을 더 빠르게 배치 할 수있는 합성 데이터 검증.
- 신경 로봇 공학: 가계 자동화 시스템의 개발을 가속화하기 위해 모델을 평가합니다.
저자에 대해
듣기 도허티 Nvidia의 기술 마케팅 엔지니어 인턴으로 Nvidia Isaac Sim, Isaac Lab 및 Isaac GR00T 플랫폼에서 로봇 학습 응용 프로그램에서 일하고 있습니다. Doherty는 현재 루이지애나 남동부 대학에서 컴퓨터 과학 학사 학위를 취득하고 있으며 데이터 과학, AI 및 로봇 공학에 중점을두고 있습니다.
편집자 주 : 이 기사는 NVIDIA의 기술에서 신디케이트되었습니다 블로그.
게시물 Nvidia의 연구 워크 플로 및 기초 모델로 일반 로봇을 훈련시키는 방법 먼저 나타났습니다 로봇 보고서.