AI2는 새로운 Molmoact 7B 모델이 AI를 물리적 세계로 가져옵니다.

0
2
ai2는-새로운-molmoact-7b-모델이-ai를-물리적-세계로-가져옵니다.
AI2는 새로운 Molmoact 7B 모델이 AI를 물리적 세계로 가져옵니다.
분홍색과 녹색 데이터 필드가있는 파란색 배경 위의 AI2의 로고. 이 연구소는 로봇 AI 용 Molmoact를 개발했습니다.

AI2는 Molmoact 모델이 안전하고 해석 가능하며 적응성이 있으며 진정으로 개방적이라고 말했다. | 출처 : AI2, Adobe Stock

AI2로도 알려진 Alen Institute의 AII 연구소는 어제 최첨단 인공 지능 모델을 물리적 세계로 가져 오는 구체화 된 AI 모델 인 Molmoact 7B의 출시를 발표했습니다.

AI2는 언어를 통해 추론하고 그것을 움직임으로 전환하는 대신, Molmoact는 실제로 주변 환경을 본다고 말했다. 공간, 움직임 및 시간의 관계를 이해합니다. 그에 따라 움직임을 계획합니다. 이 모델은 2D 이미지 입력을 3D 공간 계획으로 변환하는 시각적 추론 토큰을 생성하여 로봇이 더 큰 지능과 제어로 물리적 세계를 탐색 할 수있게합니다.

AI2의 CEO 인 Ali Farhadi는“구체화 된 AI는 추론, 투명성 및 개방성을 우선시하는 새로운 기반이 필요합니다. “Molmoact를 통해 우리는 단순히 모델을 발표 할뿐만 아니라 AI의 새로운 시대에 대한 토대를 마련하고 있으며 강력한 AI 모델의 지능을 물리적 세계로 가져오고 있습니다. 그것은 인간이 어떻게하는 방식으로 세상을 추론하고 탐색 할 수있는 AI를 향한 단계입니다.”

AI2는 시애틀에 기반을 둔 비영리 AI 연구입니다 학회 세계에서 가장 큰 문제를 해결하기 위해 AI를 구축하는 사명으로. 2014 년 Microsoft 공동 창립자 Paul G. Allen이 설립 한 AI2는 기초를 개발한다고 말했다. 일체 포함 대규모 오픈 모델, 오픈 데이터, 로봇 공학, 보존 플랫폼 등을 통한 연구 및 새로운 응용 프로그램.

AI2는 Molmoact가 최초의 ‘행동 추론 모델’이라고 주장합니다.

공간 추론은 새로운 것이 아니지만 대부분의 현대 시스템은 폐쇄 된 엔드 투 엔드 아키텍처에 의존하여 대규모 독점 데이터 세트에 대해 훈련되었습니다. AI2에 따르면이 모델은 재생산이 어렵고, 스케일이 비싸며, 종종 불투명 한 블랙 박스로 작동합니다.

이 연구소는 Molmoact가 근본적으로 다른 접근법을 제공한다고 주장했다. 그만큼 모델 공개 데이터에 대해 전적으로 교육을 받았으며 투명성을 위해 설계되었으며 실제 일반화를 위해 구축되었습니다. AI2는 단계별 시각적 추론 흔적을 통해 사용자는 로봇이 계획하는 일을 미리보고 조건이 변경됨에 따라 실시간으로 행동을 조종 할 수 있다고 AI2는 말했다.

AI2는 Molmoact를“행동 추론 모델”(ARM)이라고 불렀으며, 실제 세계에서이를 수행하기 위해 일련의 물리적 행동을 통해 높은 수준의 자연 언어 지침과 이유를 해석 할 수 있음을 나타냅니다.

이 연구소는 전통적인 엔드 투 엔드 로봇 모델 모델은 과제를 단일 불투명 한 단계로 취급한다고 말했다. 대신, 무기는 높은 수준의 지시를 해석하고 공간적으로 근거한 결정의 투명한 체인으로 분해합니다.

  • 3D 인식 인식 : 깊이와 공간적 맥락을 사용하여 환경에 대한 로봇의 이해를 근거로
  • 시각적 웨이 포인트 계획 : 이미지 공간에서 단계별 작업 궤적 개요
  • 액션 디코딩 : 계획을 정확한 로봇 별 제어 명령으로 변환

이 계층화 된 추론은 Molmoact가 “이 쓰레기 더미 분류”와 같은 명령을 단일 단계가 아니라 구조화 된 일련의 하위 작업으로 해석 할 수 있도록합니다. 이 모델은 장면을 인식하고, 그룹을 유형별로 객체를 그룹화하고, 하나씩 이해하고 반복합니다.

AI2는 Molmoact를 구축하여 빠르게 확장합니다

모델 패밀리에서 첫 번째 인 Molmoact 7B는 부엌 및 침실과 같은 실제 환경에서 약 12,000 개의 “로봇 에피소드”의 선별 된 데이터 세트에 대해 교육을 받았습니다. AI2는 이러한 시연을 로봇 통화 시퀀스로 변환하여 복잡한 지시가 어떻게 표지 된 목표 지향적 행동에 매핑되는지를 드러 냈습니다.

이 회사는이 모델과 함께 ~ 12,000 개의 뚜렷한 “로봇 에피소드”를 포함하는 Molmoact 사후 훈련 데이터 세트를 출시하고 있습니다. AI2 연구원들은 다양한 가정 환경에서 행동을 수행하는 로봇의 비디오를 선별하는 데 몇 달을 보냈습니다. 여기에는 거실 소파에 베개를 배치하는 것부터 침실에 세탁물을 두는 것까지 모든 것이 포함됩니다.

AI2는 강력한 성능에도 불구하고 Molmoact를 효율적으로 훈련 시켰다고 말했다. 256에 전례가있는 1,800 만 샘플이 필요했습니다 nvidia H100 그래픽 처리 장치 (GPU)는 약 24 시간 동안, 64 GPU에서 미세 조정하면 2 개 더 있습니다.

대조적으로, 많은 상용 모델에는 수억 개의 샘플이 필요하고 훨씬 더 많은 계산이 필요합니다. 그러나 Molmoact는 주요 벤치 마크에서 이러한 많은 시스템을 능가했으며, 이는 더 간단한 성공률을 포함하여 주요 벤치 마크에서 성능이 우수했습니다. 이는 고품질 데이터와 사려 깊은 디자인이 훨씬 더 많은 데이터와 컴퓨팅으로 훈련 된 모델을 능가 할 수 있음을 보여 주었다.

AI2는 molmoact를 개방하고 투명하게 유지합니다

AI2는 투명성을 위해 Molmoact를 구축했다고 말했다. 사용자는 실행하기 전에 모델의 계획된 움직임을 미리 볼 수 있습니다. 운동 카메라 이미지에 궤적이 오버레이됩니다.

또한 사용자는 터치 스크린에서 자연 언어 또는 빠른 스케치 수정을 사용하여 이러한 계획을 조정하여 집, 병원 및 창고와 같은 실제 환경에서 세밀한 제어를 제공하고 안전을 향상시킬 수 있습니다.

AI2의 사명에 따라 Molmoact는 완전히 있습니다 오픈 소스 재현 가능. 이 연구소는 모델을 빌드, 실행 및 확장하는 데 필요한 모든 것을 발표하고 있습니다 : 훈련 파이프 라인, 사전 및 사후 훈련 데이터 세트, 모델 체크 포인트 및 평가 벤치 마크.

그만큼 모델 그리고 모델 인공물 – 교육 체크 포인트 및 EVAL을 포함한 AI2의 Hugging Face Repository에서 제공됩니다.

Robobusiness의 AI 최신 정보에 대해 알아보십시오

올해 Robobusiness캘리포니아 주 산타 클라라에서 10 월 15 일과 16 일에있을 예정입니다. 이 트랙에는 안전 및 AI 주변 대화, 시뮬레이션 대 현실 강화 교육, 데이터 큐 레이션, AI 구동 로봇 배포 등 다양한 주제에 대한 이야기가 있습니다.

참석자들은 Dexterity, ABB Robotics, UC Berkeley, Roboto, Graymatter Robotics, 부지런한 로봇 공학 및 Dexman AI의 전문가로부터들을 수 있습니다. 또한 쇼는 a로 시작됩니다 기조 Nvidia의 Edge AI의 로봇 공학 부사장 인 Deepu Talla에서 새로운 로봇 공학 시대에 물리적 인 AI가 어떻게 안내하는지에 관한 것입니다.

Robobusiness는 상업용 로봇 개발자 및 공급 업체를위한 최고의 이벤트입니다. 이 행사는 WTWH Media에서 제작하며 로봇 보고서,,, 자동 창고그리고 로봇 공학 서밋 & 엑스포.

올해 회의에는 60 개 이상이 포함됩니다 스피커스타트 업 워크숍, 연례 피치 파이어 경쟁 및 수많은 네트워킹 기회. 쇼 플로어에 100 개가 넘는 전시 업체 로봇 공학 개발 문제를 해결하기 위해 최신 활성화 기술, 제품 및 서비스를 선보일 예정입니다.

등록이 시작되었습니다 Robobusiness 2025.


2025 Robobusiness 등록을위한 사이트 광고.

게시물 AI2는 새로운 Molmoact 7B 모델이 AI를 물리적 세계로 가져옵니다. 먼저 나타났습니다 로봇 보고서.