로봇 공학 분야에서 비전 기반 학습 시스템은 기계가 환경을 해석하고 상호 작용할 수 있도록 하는 유망한 전략이라고 AI 연구소가 오늘 밝혔습니다. 로봇 훈련을 용이하게 하기 위해 Theia 비전 기반 모델을 도입했습니다.
비전 기반 학습 AI 연구소는 시스템이 세상에 대한 강력한 표현을 제공하여 로봇이 주변 환경을 이해하고 반응할 수 있도록 해야 한다고 말했습니다. 전통적인 접근 방식은 일반적으로 분류, 분할 또는 객체 감지와 같은 단일 작업 모델에 중점을 두는데, 이는 로봇 학습에 필요한 장면에 대한 다양한 이해를 개별적으로 캡슐화하지 않습니다.
이러한 단점은 광범위한 시각적 신호를 효율적으로 해석할 수 있는 보다 전체적인 솔루션의 필요성을 강조한다고 매사추세츠주 케임브리지에 본사를 둔 연구소는 말했습니다. 학회이러한 격차를 해소하기 위해 Theia를 개발하고 있습니다.
에서 종이 AI 연구소는 로봇 학습 컨퍼런스(CoRL)에서 발표한 바에 따르면, 여러 기성 비전 기반 모델(VFM)의 전문 지식을 단일 모델로 추출하도록 설계된 모델인 테이아(Theia)를 선보였습니다. Theia는 각각 특정 시각적 작업을 위해 훈련된 다양한 VFM의 장점을 결합하여 로봇 학습 성능을 향상시키는 데 사용할 수 있는 더욱 풍부하고 통합된 시각적 표현을 생성합니다.
Theia의 인코더를 사용하여 훈련된 로봇 정책은 12개의 로봇에 대해 평가했을 때 80.97%의 더 높은 평균 작업 성공률을 달성했습니다. 시뮬레이션 다른 표현 선택에 비해 통계적으로 유의미한 개선이 이루어졌습니다.
또한, 실제 로봇실험에서는 학회 행동 복제를 사용하여 4가지 다단계 작업에 걸쳐 로봇 정책을 학습한 결과, Theia를 사용하여 훈련된 정책 성공률은 차선책 표현을 사용하여 훈련한 정책보다 평균 15% 더 높았습니다.
시각적 모델을 결합하도록 설계된 Theia
Theia의 디자인은 CLIP(비전 언어), DINOv2(밀도 시각적 대응), ViT(분류) 등 여러 VFM의 장점을 통합하는 증류 프로세스를 기반으로 합니다. AI 연구소는 테이아가 이러한 모델을 신중하게 선택하고 결합함으로써 다운스트림 로봇 학습 성능을 향상시킬 수 있는 강력한 시각적 표현을 생성할 수 있다고 밝혔습니다.
Theia의 핵심은 시각적 인코더(백본)와 여러 VFM의 지식을 통합 모델로 통합하기 위해 함께 작동하는 기능 변환기 세트로 구성됩니다. 시각적 인코더는 다양한 시각적 통찰력을 포착하는 잠재 표현을 생성합니다.
그런 다음 이러한 표현은 기능 변환기에 의해 처리되며, 출력 기능을 실제와 비교하여 이를 개선합니다. 이 비교는 감독 신호 역할을 하며 Theia의 잠재 표현을 최적화하여 다양성과 정확성을 향상시킵니다.
이러한 최적화된 잠재 표현은 이후 정책 학습 모델을 미세 조정하는 데 사용되어 로봇이 더 정확하게 광범위한 작업을 수행할 수 있도록 합니다.
로봇은 실험실에서 학습한다
AI 연구소의 연구원들은 시뮬레이션과 다음을 포함한 다양한 로봇 플랫폼에서 Theia를 테스트했습니다. 보스턴 다이내믹스‘ 스팟과 WidowX 로봇 팔. 실험실 테스트 중 하나에서 Theia를 사용하여 로봇이 작은 전자레인지를 열고, 장난감 음식을 안에 넣고, 전자레인지 문을 닫을 수 있는 정책을 훈련했습니다.
이전에는 연구원들이 느리고 계산 비용이 많이 드는 모든 VFM을 결합하거나 로봇 앞의 장면을 표현하는 데 사용할 VFM을 선택해야 했습니다. 예를 들어 분할 모델의 분할 이미지, 깊이 모델의 깊이 이미지 또는 이미지 분류 모델의 텍스트 클래스 이름을 선택할 수 있습니다. 각각은 장면에 대한 다양한 유형과 세부 정보를 제공했습니다.
일반적으로 단일 VFM은 알려진 물체가 있는 단일 작업에 적합할 수 있지만 다른 작업이나 다른 로봇에는 올바른 선택이 아닐 수 있습니다.
Theia를 사용하면 로봇의 동일한 이미지가 인코더를 통해 공급되어 모든 주요 정보가 포함된 단일 표현을 생성할 수 있습니다. 그 표현은 Theia의 분할 디코더에 입력되어 분할 이미지를 출력할 수 있습니다. 동일한 표현을 Theia의 깊이 디코더에 입력하여 깊이 이미지 등을 출력할 수 있습니다.
공유 표현에는 원본 VFM의 모든 출력을 생성하는 데 필요한 정보가 포함되어 있으므로 각 디코더는 입력과 동일한 표현을 사용합니다. 이를 통해 훈련 과정이 간소화되고 조치를 보다 광범위한 상황으로 전환할 수 있습니다. 말했다 연구원들.
사람에게는 쉬운 것처럼 들리지만 전자레인지 작업은 물체 집기, 전자레인지에 넣기, 전자레인지 문 닫기 등 여러 단계를 성공적으로 완료해야 하기 때문에 더 복잡한 동작을 나타냅니다. Theia로 교육받은 정책은 이러한 각 단계에서 최고의 성능을 발휘하는 정책 중 하나이며, 특히 로봇 공학 애플리케이션용은 아니지만 여러 VFM을 결합하는 또 다른 접근 방식인 E-RADIO와 비교할 수 있습니다.
Theia는 효율성을 최우선으로 생각합니다.
다른 VFM에 비해 Theia의 주요 장점 중 하나는 효율성이라고 AI 연구소는 말했습니다. Theia 교육에는 ImageNet과 같은 데이터 세트에서 약 150 GPU 시간이 필요하므로 다른 모델에 비해 필요한 계산 리소스가 줄어듭니다.
이러한 높은 효율성은 성능 저하를 초래하지 않으므로 Theia는 연구와 응용 모두에 실용적인 선택이 됩니다. 모델 크기가 더 작고 훈련 데이터의 필요성이 감소함에 따라 Theia는 훈련 및 미세 조정 프로세스 모두에서 계산 리소스를 절약합니다.
AI Institute, 로봇 학습의 변화를 확인하다
Theia를 사용하면 여러 비전 모델의 지식을 분류, 분할, 깊이 예측 및 기타 양식을 위한 간결한 표현으로 정제하여 로봇이 보다 빠르고 효과적으로 학습하고 적응할 수 있습니다.
Theia 또는 기타 VFM을 사용하여 복잡한 로봇 공학 작업에서 100% 성공률에 도달하기 전에 수행해야 할 작업이 아직 많이 있지만 Theia는 더 적은 교육 데이터와 더 적은 계산 리소스를 사용하면서 이 목표를 향해 진전을 이루고 있습니다.
AI 연구소는 연구원과 개발자를 초대하여 Theia를 탐색하고 로봇이 환경을 학습하고 해석하는 방법을 개선하는 능력을 추가로 평가했습니다.
“Theia가 로봇 공학 분야의 학문적 연구와 실제 응용에 어떻게 기여할 수 있을지 기대됩니다.”라고 말했습니다. AI연구소를 방문해보세요. 프로젝트 페이지 그리고 데모 페이지 테이아에 대해 더 알아보세요.
게시물 AI 연구소는 로봇 학습을 개선하기 위해 Theia 비전 기반 모델을 도입했습니다. 처음 등장한 로봇 보고서.