AI 뉴스허브

엔비디아, 코스모스 플랫폼 출시로 ‘물리적 AI’ 시대 예고

엔비디아, 코스모스 플랫폼 출시로 ‘물리적 AI’ 시대 예고

엔비디아, 코스모스 플랫폼 출시로 ‘물리적 AI’ 시대 예고

너무 오랫동안 AI는 영국 교사가 상상한 2차원 세계인 플랫랜드에 갇혀 있었습니다. 에드윈 애보트 애보트. 챗봇, 이미지 생성기, AI 기반 비디오 도구가 우리를 매료시켰지만 여전히 화면의 평평한 표면에만 국한되어 있습니다.

이제 NVIDIA는 게임의 벽을 허물고 있습니다. 평지‘물리적 AI’ 시대를 열다 인공지능 우리 주변의 3차원 세계를 인식하고, 이해하고, 상호 작용할 수 있습니다.

“AI의 다음 개척지는 물리적 AI입니다. 대규모 언어 모델을 상상해 보세요. 텍스트를 처리하는 대신 주변 환경을 처리합니다.”라고 CEO인 Jensen Huang은 말했습니다. 엔비디아. “질문을 프롬프트로 받아들이는 대신 요청이 필요합니다. 텍스트를 생성하는 대신 액션 토큰을 생성합니다.

이것이 기존 로봇공학과 어떻게 다른가요? 기존 로봇은 일반적으로 통제된 환경에서 특정 반복 작업을 수행하도록 사전 프로그래밍되어 있습니다. 자동화에는 탁월하지만 예상치 못한 상황을 처리하거나 복잡하고 역동적인 환경을 탐색하는 데 필요한 적응성과 이해력이 부족합니다.

NVIDIA의 헬스케어 담당 부사장인 Kimberly Powell은 다음과 같은 잠재력에 대해 이야기했습니다. 건강 관리 동안의 환경 JP Morgan Healthcare Conference에서 그녀가 발표한 내용은 다음과 같습니다.

“모든 센서, 모든 병실, 모든 병원이 물리적 AI를 통합하게 될 것입니다.”라고 그녀는 말했습니다. “새로운 개념이지만 물리적 AI에 대해 생각하는 간단한 방법은 물리적 세계를 이해한다는 것입니다.”

이해가 문제의 핵심입니다. 전통적인 AI와 자율 시스템은 물리적 공간에서 작동할 수 있지만 역사적으로 기계적인 작업을 수행하는 데 필요한 것 이상의 세상에 대한 전체적인 감각이 부족했습니다.

고급 AI 시스템은 GPU 성능이 가속화됨에 따라 꾸준히 향상되고 있습니다. ‘의 에피소드에서No Priors’ 팟캐스트 지난 11월, Huang은 NVIDIA가 상위 소프트웨어 계층 전반에서 애플리케이션 프로그래밍 인터페이스(API) 호환성을 유지하면서 12개월 동안 Hopper 아키텍처 성능을 5배 향상했다고 밝혔습니다. 최신 아키텍처는 Blackwell입니다.

Huang은 “기존 컴퓨팅 접근 방식으로는 1년 안에 5배의 개선이 불가능합니다.”라고 말했습니다. 그는 하드웨어-소프트웨어 공동 설계 방법론과 결합된 가속화된 컴퓨팅을 통해 NVIDIA가 “모든 종류의 새로운 것을 발명”할 수 있었다고 설명했습니다.

‘인공로봇지능’을 향하여

황은 또한 일반 인공지능(AGI)에 대한 자신의 관점을 논의하면서 AGI가 다가올 뿐만 아니라 인공 일반 로봇 공학도 기술적 타당성에 접근하고 있음을 시사했습니다.

Powell은 JP Morgan에서의 연설에서도 비슷한 감정을 반영했습니다. AI 혁명은 여기에 있을 뿐만 아니라 엄청나게 가속화되고 있습니다.”라고 그녀는 말했습니다.

Powell은 NVIDIA의 노력이 이제 첨단 로봇 공학부터 산업 분야까지 모든 것을 포괄한다고 언급했습니다. 조작 그리고 건강 관리에 시뮬레이션 같은 도구 옴니버스 훈련과 테스트를 위한 사실적인 환경을 생성합니다.

이와 병행하여 NVIDIA는 자율 시스템 개발을 위한 새로운 컴퓨팅 프레임워크를 출시했습니다. 코스모스 월드 파운데이션 모델(WFM) 플랫폼 자율주행 차량 및 로봇공학 애플리케이션용으로 설계된 프레임워크를 사용하여 대규모의 시각적 및 물리적 데이터 처리를 지원합니다.

NVIDIA Cosmos에는 순차적 프레임 예측을 위한 자동 회귀 모델, 반복적인 비디오 생성을 위한 확산 모델, 효율적인 압축을 위한 비디오 토크나이저, 데이터 큐레이션을 위한 비디오 처리 파이프라인이라는 네 가지 주요 아키텍처 구성 요소가 있습니다. 이러한 구성 요소는 물리학 인식 세계 모델링 및 비디오 생성을 위한 통합 플랫폼을 형성합니다. | 출처: 엔비디아

토큰화 현실

~에 CES 2025 지난주 황 밑줄이 그어진 “물리적 AI”가 텍스트 중심의 대형 언어 모델(LLM)과 얼마나 다른지 설명합니다. ” 프롬프트가 질문이 아니라 요청인 경우에는 저쪽으로 가서 해당 상자를 집어 들고 다시 가져오면 어떨까요? 그리고 텍스트를 생성하는 대신 액션 토큰을 생성한다고요? 이는 로봇공학의 미래를 위해 매우 합리적인 일이며, 기술이 바로 코앞에 다가왔습니다.”

같은 우선순위 팟캐스트 없음Huang은 다중 모드 LLM에 대한 강력한 수요가 로봇 공학의 발전을 이끌 수 있다고 지적했습니다. “내가 커피잔을 집는 영상을 생성할 수 있다면 왜 로봇에게도 똑같이 하도록 유도할 수 없나요?” 그는 물었다.

또한 Huang은 자율주행 자동차와 인간 모양의 로봇을 대표적인 예로 들며 새로운 인프라가 필요하지 않은 로봇 공학의 “브라운필드” 기회를 강조했습니다. “우리는 자동차와 인간을 위한 세상을 만들었습니다. 이것이 바로 물리적 AI의 가장 자연스러운 형태입니다.”

코스모스의 구조적 토대

코스모스 홍보 이미지입니다. | 출처: 엔비디아

엔비디아의 코스모스 플랫폼 물리학 인식 비디오 모델링 및 센서 데이터 처리를 강조합니다. 또한 비디오, 텍스트 및 센서 데이터를 포함한 다중 모드 입력을 처리하도록 설계된 40억~140억 개의 매개변수 크기를 갖춘 WFM 교육 및 배포를 위한 프레임워크를 소개합니다.

시스템 아키텍처에는 2천만 시간의 로봇 공학 및 운전 데이터에서 가져온 약 9,000조 개의 토큰에 대해 훈련된 물리학 인식 비디오 모델이 통합되어 있습니다. 플랫폼의 데이터 처리 인프라는 분산 컴퓨팅 클러스터 전반에 걸쳐 높은 처리량의 비디오 처리를 가능하게 하는 NeMo 큐레이터 파이프라인을 활용합니다.

이 아키텍처는 물리 인식 시뮬레이션을 생성하기 위한 자동회귀 및 확산 모델을 모두 지원하며 벤치마크에서는 기본 비디오 합성 모델에 비해 자세 추정 정확도가 최대 14배 향상된 것으로 나타났습니다. 시스템의 토크나이저는 실시간 로봇 애플리케이션에 필수적인 시간적 일관성을 유지하면서 시각적 데이터에 대해 8배 압축 비율을 구현합니다.

물리적 AI에 대한 비전

WFM(World Foundation Model)의 개발은 AI 시스템이 물리적 세계와 상호 작용하는 방식의 변화를 나타냅니다. 물리적 모델링의 복잡성은 WFM을 기존 언어 모델과 구별하는 고유한 과제를 제시합니다.

“[The world model] 중력, 마찰, 관성과 같은 물리적 역학을 이해해야 합니다. 기하학적, 공간적 관계를 이해해야 합니다.”라고 Huang은 설명했습니다. 물리학 원리에 대한 이러한 포괄적인 이해는 물리적 상호 작용을 모델링하기 위해 특수 신경망을 구현하는 Cosmos와 같은 시스템의 아키텍처를 구동합니다.

물리적 AI 시스템의 개발 방법론은 LLM의 개발 방법론과 유사하지만 운영 요구 사항이 다릅니다. Huang은 다음과 같이 명시적으로 연결을 그렸습니다. “대규모 언어 모델이 왼쪽에 컨텍스트와 프롬프트를 제공하면 토큰이 생성된다고 상상해 보세요.”

플랫폼의 광범위한 훈련 요구 사항은 “확장 법칙에 따르면 더 많은 데이터, 더 많은 훈련 데이터, 더 큰 모델, 더 많은 컴퓨팅을 적용할수록 더 효과적이라고 말합니다.”라는 Huang의 관찰과 일치합니다. , 그렇지 않으면 모델의 성능이 더욱 향상될 것입니다.”

이 원칙은 9,000조 개의 토큰으로 구성된 코스모스의 훈련 데이터 세트에 예시되어 있으며, 이는 효과적인 물리적 AI 시스템에 필요한 계산 규모를 보여줍니다.

이미지는 NVIDIA의 Isaac GR00T 기술을 보여주며, 가상 환경에서 인간형 로봇이 미러링하는 움직임을 보여주기 위해 VR 헤드셋을 사용하는 인간 조작자를 보여줍니다. 이번 시연에서는 차세대 로봇 시스템 훈련을 위한 원격 조작자 기반 합성 모션 생성이 강조됩니다. | 출처: 엔비디아

미래에 미치는 영향

물리적 AI는 기존 로봇공학 사용자보다 더 많은 변화를 가져올 수 있는 잠재력을 가지고 있습니다. 물리적 AI의 발전과 병행하여 AI 에이전트도 기술 세트를 빠르게 확장하고 있습니다. Huang은 이러한 에이전트를 “우리를 위해 그리고 우리와 함께 일하는 새로운 디지털 인력”이라고 설명했습니다.

제조, 의료 분야이든, 기호 논리학또는 일상적인 소비자 기술을 통해 이러한 지능형 에이전트는 인간의 반복 작업을 덜어주고 지속적으로 작동하며 빠르게 변화하는 조건에 적응할 수 있습니다. 그의 말에 따르면, “AI 에이전트가 아마도 차세대 로봇 산업이 될 것이며, 수조 달러 규모의 기회가 될 가능성이 매우 분명합니다.”

Huang이 말했듯이 우리는 AI가 지속적으로 “당신과 함께” 우리 삶에 완벽하게 통합되는 시대가 다가오고 있습니다. 그는 Meta의 스마트 안경을 초기 사례로 지적하면서 우리가 단순히 몸짓이나 음성을 사용하여 AI 동료와 상호 작용하고 주변 세계에 대한 정보에 액세스할 수 있는 미래를 상상했습니다.

Huang에 따르면 직관적이고 항상 작동하는 AI 비서로의 전환은 우리가 환경을 배우고, 일하고, 탐색하는 방법에 깊은 영향을 미칩니다.

“물론 지능은 우리가 가진 가장 귀중한 자산이며 매우 어려운 문제를 해결하는 데 적용될 수 있습니다.”라고 그는 말했습니다.

지속적인 AI 에이전트, 몰입형 증강 현실, 로봇 공학 분야의 수조 달러 기회로 가득 찬 미래를 바라보면서 “플랫랜드 AI” 시대는 종말을 고하고 현실 세계는 AI의 가장 큰 캔버스가 될 것입니다. .

편집자 주: 이 기사는 다음에서 배포되었습니다. 로봇 보고서 형제 사이트 연구개발세계.


지금 등록하시면 컨퍼런스 패스 40% 할인을 받으실 수 있습니다!


게시물 엔비디아, 코스모스 플랫폼 출시로 ‘물리적 AI’ 시대 예고 처음 등장한 로봇 보고서.

Exit mobile version