
그림은 나선 모델과 데이터 엔진을 구축하여 물류 작업을 배울 수있는 휴머노이드 로봇 함대가 가능합니다. 출처 : 그림 AI
그림 AI Inc. 이번 주에는 Humanoid Robots 및 Helix 모델에 대한 실제 응용 프로그램을 도입했습니다. 물류 심사를위한 패키지 조작.
캘리포니아 주 Sunnyvale은“이 과제는 인적 수준의 속도, 정밀성 및 적응성을 요구하여 학습 된 조작의 픽셀-액션 조작의 경계를 밀어냅니다. 회사.
이 응용 프로그램의 핵심은 Helix이며, 내부적으로 설계된 VLA (Vision-Language-Action) 모델입니다. 발표 지난 주 에이 모델은 인식, 언어 이해 및 배운 통제를 통합합니다.
휴머노이드는 물류 사용 사례를 다룹니다
이 작업은 몇 가지 주요 과제를 제시합니다. 패키지는 강성 상자에서 변형 가능한 백에 이르기까지 다양한 크기, 모양, 무게 및 강성으로 제공되므로 복제하기가 어렵습니다. 시뮬레이션.
그림 02 휴머노이드 로봇은 움직이는 객체를 잡고 각 패키지를 재배치하기위한 최적의 모멘트와 방법을 결정해야합니다. 또한 연속 이동 컨베이어에서 수많은 패키지의 동적 흐름을 추적하고 높은 처리량을 유지해야합니다.
환경은 결코 완전히 예측할 수 없으므로 시스템은 자기 수정을 할 수 있어야합니다. 이러한 과제를 해결하는 것은 그림의 비즈니스의 주요 적용 일뿐입니다. 또한 다른 모든 사용 사례가 현재 혜택을받는 Helix System 1에 대한 일반적인 새로운 개선을 산출했다고 회사는 밝혔다.
나선 시각적 표현이 향상됩니다
그림 AI는 현재 시스템이 환경에 대한 풍부한 3D 이해를 가지고있어보다 정확한 깊이 인식 운동을 가능하게한다고 주장했습니다. 이전 시스템 1은 단안 시각적 입력에 의존하지만 새로운 시스템 1은 스테레오를 사용합니다. 비전 백본은 멀티 스케일 피처 추출 네트워크와 결합하여 풍부한 공간 계층을 캡처합니다.
회사는 각 카메라의 이미지 기능 토큰을 독립적으로 공급하는 대신 두 카메라의 기능이 토큰 화되기 전에 멀티 스케일 스테레오 네트워크에 병합되어 있다고 회사는 설명했다. 이로 인해 그림의 교차 변압기에 공급되는 전반적인 시각적 토큰 수를 일정하게 유지하고 계산 오버 헤드를 피합니다.
멀티 스케일 (Multiscale) 기능을 통해 시스템은 미세한 세부 사항과 더 넓은 상황 신호를 해석 할 수 있으며, 이는 시력의보다 신뢰할 수있는 제어에 기여하는 더 넓은 상황 신호를 해석 할 수 있다고 Figure는 말했다.
컨퍼런스 패스에 40%를 절약하려면 오늘 등록하십시오!
규모로 배포 준비
많은 로봇에 단일 정책을 배포하려면 작은 개별 로봇 하드웨어 변형으로 인해 관찰 및 액션 공간의 분포 이동을 해결해야합니다. 여기에는 센서-교정 차이 (입력 관찰에 영향을 미치는)와 공동 응답 특성 (조치 실행에 영향을 미치는)이 포함되어 있으며, 이는 제대로 보상되지 않으면 정책 성능에 영향을 줄 수 있다고 그림 AI는 말했다.
특히 고차원, 전체 바디 액션 공간에서 전통적인 수동 로봇 교정은 로봇 함대에서 스케일링되지 않습니다. 대신, 그림은 각 로봇의 온보드 시각적 입력에서 최종 이펙터의 6D 포즈를 완전히 추정하기 위해 시각적 고유 인식 모델을 훈련시킵니다.
이 온라인 “자체 교정”은 최소한의 가동 중지 시간으로 강력한 크로스 로봇 정책 이전을 허용한다고 회사는 밝혔다.
학습 된 교정 및 시각적 고유 인식 모듈을 사용하여 그림은 처음에 단일 로봇 데이터에 대해 여러 추가 로봇에 교육 된 동일한 정책을 적용 할 수있었습니다. 변형에도 불구하고 감지기 교정 및 작은 하드웨어 차이, 시스템은 비슷한 수준을 유지했습니다. 시장 조작 모든 플랫폼에서 성능을 발휘했다고 주장했다.
그림은이 일관성이 공변량 교대를 완화하는 데있어 학습 된 교정의 효과를 보여 주며, 로봇 당 재 보정의 지루한 필요성을 효과적으로 줄이고 대규모 배치를보다 실용적으로 만듭니다.
데이터 큐 레이션 및 조작 속도

데이터 측면에서 그림은 느리거나 놓치거나 실패한 것을 제외하고 인간 시연을 필터링하는 데 특히주의를 기울 였다고 말했다. 그러나 의도적으로 의도적으로 수정을 자극 한 실패가 작업자 오류보다는 환경 확률로 인해 교정 된 실패로 간주 될 때 자연스럽게 시정 행동을 포함시킨 시연을 유지했습니다.
긴밀히 협력합니다 원격 수술가 회사는 조작 전략을 개선하고 균일화하기 위해 상당한 개선을 초래했다고 밝혔다.
조작 전략을 균일화하는 것 외에도 인물은 결국 인간 조작 속도를 뛰어 넘기 위해 노력했습니다.
그것은 단순한 테스트 시간 기술을 적용하여 제약보다 빠르게 생성되었습니다 배웠습니다 행동. 그림은 “스포츠 모드”라고 불리는 정책 행동 청크 출력을 보간했습니다. 시스템 1 정책은 200Hz에서 일련의 로봇 동작을 나타내는 “청크”를 출력합니다.
예를 들어, 회사는 작업 덩어리를 선형으로 샘플링하여 교육 절차를 수정하지 않고 20%의 테스트 시간 속도를 달성 할 수 있다고 말했습니다. [T x action_dim]-t 밀리 초 궤적을 더 짧게 표현합니다 [0.8 * T x action_dim] 궤적, 원래 200 Hz 제어 속도에서 짧은 덩어리를 실행합니다.
선형 리 샘플링 또는 “스포츠 모드”를 통해 정책 실행 속도를 높이는 것은 최대 50% 속도를 높였다 고 회사는 말했다. 이것은 액션 출력 청크의 높은 시간 해상도 (200Hz)에 의해 가능할 것입니다.
그러나 50% 속도를 넘어 서면 효과적인 처리량이 실질적으로 떨어지기 시작했습니다. 변 너무 부적절 해지고 시스템을 자주 재설정해야한다고보고했습니다. 이 회사는 속도가 50% 증가함에 따라 정책이 교육을받은 전문가 궤적과 비교하여 더 빠른 물체 처리를 달성했다는 것을 발견했습니다 (T_EFF> 1).
그림 AI는 지금까지 나선 결과를 공유합니다

그림은 정규화 된 효과적인 처리량 T_eff를 사용하여 시스템의 성능을 측정했는데, 이는 훈련 된 데모 데이터와 비교하여 패키지가 얼마나 빨리 처리되는지를 나타냅니다. 이것은 필요한 경우 시스템을 재설정하는 데 소요되는 시간을 고려합니다.

예를 들어, t_eff> 1.1은 훈련을 위해 수집 한 전문가 궤적보다 10% 빠른 조작 속도를 나타냅니다. 그림 AI는 멀티 스케일 기능 추출과 암시 적 스테레오 입력이 시스템 성능을 크게 향상시킬 수 있다고 밝혔다.
이 회사는 또한 스테레오를 추가 할 때 다양한 패키지 크기에 대한 견고성을 개선했습니다. 스테레오 모델은 스테레오 비 기준선에 대한 처리량이 60% 증가합니다.
또한 피겨는 스테레오 장착 S1이 시스템을 훈련받지 못한 평평한 봉투로 일반화 할 수 있음을 발견했습니다.
이 회사는 또한 단일 사용 사례의 경우 데이터 품질과 일관성이 데이터 수보다 훨씬 중요하다는 것을 발견했습니다. 그 결과 큐 레이트 된 고품질 데모로 훈련 된 모델은 1/3 적은 데이터로 훈련 되었음에도 불구하고 40% 더 나은 처리량을 달성 한 것으로 나타났습니다.
그림 AI는 스테레오 멀티 스케일 비전, 온라인 캘리브레이션 및 테스트 시간 속도와 같은 건축 정제와 결합 된 고품질 데이터 세트가 실제 물류 트라이 지오 (Triating Triaging Scen
이 시스템은 상대적으로 적당한 양의 데모 데이터를 사용 하면서이 작업을 수행했다고 회사는 말했다. Figure Helix는 속도와 정밀도가 중요한 복잡한 산업 응용 분야로 엔드 투 엔드 Visuo-Motor 정책을 확장 할 가능성이 있음을 보여줍니다.
게시물 그림 AI 연구 나선 모델, 물류에 대한 휴머노이드를 준비합니다 먼저 나타났습니다 로봇 보고서.