비전 언어 모델(VLM)은 기본 대규모 언어 모델의 강력한 언어 이해와 비전 변환기의 비전 기능을 결합합니다(농담) 텍스트와 이미지를 동일한 임베딩 공간에 투영합니다. 구조화되지 않은 다중 모드 데이터를 가져와서 추론하고 구조화된 형식으로 출력을 반환할 수 있습니다.
NVIDIA는 광범위한 관련 기반을 바탕으로 새로운 프롬프트나 매개변수 효율적인 미세 조정을 제공함으로써 다양한 비전 관련 작업에 쉽게 적응할 수 있다고 믿습니다.
또한 실시간 데이터 소스 및 도구와 통합되어 답변을 모를 경우 추가 정보를 요청하거나 답변이 있을 경우 조치를 취할 수도 있습니다. 대규모 언어 모델(LLM) 및 VLM 로봇이 정의하기 어려운 의미 있는 작업을 수행할 수 있도록 데이터를 추론하여 에이전트 역할을 할 수 있습니다.
이전 포스팅에서는 “NVIDIA Jetson을 통해 생성적 AI에 생명을 불어넣다,” 우리는 NVIDIA Jetson Orin 장치에서 LLM 및 VLM을 실행하여 엣지 장치에서 제로샷 객체 감지, 비디오 캡션, 텍스트 생성과 같은 광범위한 새로운 기능을 활성화할 수 있음을 시연했습니다.
하지만 이러한 발전을 로봇공학의 인식과 자율성에 어떻게 적용할 수 있을까요? 이러한 모델을 현장에 배포할 때 직면하는 과제는 무엇입니까?
이번 포스팅에서는 LLM, VLM 및 검색 증강 생성 (RAG) 로봇이 몇 시간에서 며칠에 걸쳐 장거리 배치 중에 보는 것에 대해 추론하고 조치를 취할 수 있도록 합니다.
ReMEmbR의 메모리 구축 단계에서는 VLM을 사용하고 벡터 데이터베이스 긴 지평선 의미 기억을 효율적으로 구축합니다. 그런 다음 ReMEmbR의 쿼리 단계에서는 LLM 에이전트 그 기억을 추론하기 위해. 완전히 오픈 소스이며 기기에서 실행됩니다.
ReMEmbR은 로봇 공학 애플리케이션에서 LLM 및 VLM을 사용할 때 직면하는 많은 과제를 해결합니다.
- 대규모 컨텍스트를 처리하는 방법
- 공간 기억을 추론하는 방법.
- 사용자의 질문에 답변할 때까지 더 많은 데이터를 쿼리하는 프롬프트 기반 에이전트를 구축하는 방법입니다.
한 단계 더 나아가 실제 로봇에서 ReMEmbR을 사용하는 예도 구축했습니다. 우리는 Nova Carter를 사용하여 이 작업을 수행했으며 엔비디아 아이작 ROS 우리가 취한 코드와 단계를 공유합니다. 자세한 내용은 다음 리소스를 참조하세요.
- 기억하다 웹사이트
- /NVIDIA-AI-IOT/remembr GitHub 저장소
- ReMEmbR: 로봇 탐색을 위한 장수평 시공간 기억 구축 및 추론 종이
ReMEmbR은 장기 기억, 추론 및 행동을 지원합니다.
로봇은 장기간에 걸쳐 환경을 인식하고 상호 작용할 것으로 점점 더 기대되고 있습니다. 로봇은 한 번에 며칠은 아니더라도 몇 시간 동안 배치되며 우연히 다양한 물체, 이벤트 및 위치를 인식합니다.
로봇이 장기간 배치된 시나리오에서 복잡한 다단계 추론이 필요한 질문을 로봇이 이해하고 응답할 수 있도록 구현된 로봇을 위한 검색 증강 메모리인 ReMEmbR을 구축했습니다.
ReMEmbR은 로봇을 위한 확장 가능한 장거리 메모리 및 추론 시스템을 구축하여 지각적 질문 답변 및 의미론적 조치 수행 능력을 향상시킵니다. ReMEmbR은 메모리 구축과 쿼리라는 두 단계로 구성됩니다.
메모리 구축 단계에서는 벡터 데이터베이스를 사용하여 구조화된 메모리를 구축하기 위해 VLM을 활용했습니다. 쿼리 단계에서 우리는 루프에서 다양한 검색 기능을 호출하여 궁극적으로 사용자가 묻는 질문에 답할 수 있는 LLM 에이전트를 구축했습니다.
더욱 스마트한 메모리 구축
ReMEmbR의 메모리 구축 단계는 로봇이 메모리를 작동하도록 만드는 것입니다. 로봇이 몇 시간 또는 며칠 동안 배포된 경우 이 정보를 효율적으로 저장할 수 있는 방법이 필요합니다. 비디오는 저장하기 쉽지만 쿼리하고 이해하기는 어렵습니다.
기억력을 키우는 동안 우리는 짧은 비디오 부분을 찍고 다음과 같은 캡션을 붙입니다. 엔비디아 VILA VLM에 캡션을 추가한 다음 MilvusDB 벡터 데이터베이스에 삽입합니다. 또한 벡터 데이터베이스에 로봇의 타임스탬프와 좌표 정보를 저장합니다.
이 설정을 통해 우리는 로봇 메모리의 모든 종류의 정보를 효율적으로 저장하고 쿼리할 수 있었습니다. VILA로 비디오 세그먼트를 캡처하고 이를 MilvusDB 벡터 데이터베이스에 삽입함으로써 시스템은 걸어다니는 사람, 특정 작은 물체와 같은 동적 이벤트부터 보다 일반적인 범주에 이르기까지 VILA가 캡처할 수 있는 모든 것을 기억할 수 있습니다.
벡터 데이터베이스를 사용하면 ReMEmbR이 고려할 새로운 종류의 정보를 쉽게 추가할 수 있습니다.
ReMEmbR 에이전트
데이터베이스에 저장된 긴 메모리를 고려하면 표준 LLM은 긴 컨텍스트에 대해 빠르게 추론하는 데 어려움을 겪습니다.
ReMEmbR 에이전트의 LLM 백엔드는 다음과 같습니다. NVIDIA NIM 마이크로서비스로컬 온디바이스 LLM 또는 기타 LLM 애플리케이션 프로그래밍 인터페이스(API). 사용자가 질문을 하면 LLM은 데이터베이스에 대한 쿼리를 생성하여 관련 정보를 반복적으로 검색합니다. LLM은 사용자가 요청하는 내용에 따라 텍스트 정보, 시간 정보 또는 위치 정보를 쿼리할 수 있습니다. 이 과정은 질문에 답할 때까지 반복됩니다.
LLM 에이전트를 위한 이러한 다양한 도구를 사용하면 로봇은 특정 장소로 이동하는 방법에 대한 질문에 답하는 것 이상을 수행하고 공간적, 시간적으로 추론할 수 있습니다. 그림 2는 이 추론 단계가 어떻게 보이는지 보여줍니다.
실제 로봇에 ReMEmbR 배포
ReMEmbR이 실제 로봇에 어떻게 통합될 수 있는지 보여주기 위해 NVIDIA Isaac ROS 및 Nova Carter와 함께 ReMEmbR을 사용하여 데모를 구축했습니다. 오픈소스 기반으로 구축된 Isaac ROS ROS 2 소프트웨어 프레임워크는 가속 컴퓨팅 패키지와 AI 모델의 모음으로, NVIDIA 가속을 로스 개발자는 어디에나 있습니다.
데모에서 로봇은 질문에 답하고 사무실 환경에서 사람들을 안내합니다. 애플리케이션 구축 프로세스를 명확하게 설명하기 위해 우리가 수행한 단계를 공유하고 싶었습니다.
- 점유 그리드 맵 구축
- 메모리 빌더 실행
- ReMEmbR 에이전트 실행
- 음성 인식 추가
점유 그리드 맵 구축
우리가 취한 첫 번째 단계는 환경 지도를 만드는 것이었습니다. 벡터 데이터베이스를 구축하려면 ReMEmbR이 단안 카메라 이미지와 전역 위치(포즈) 정보에 액세스해야 합니다.
환경이나 플랫폼에 따라 전역 포즈 정보를 얻는 것이 어려울 수 있습니다. 다행히도 이를 사용하면 간단합니다. 노바 카터.
Nova Orin 참조 아키텍처를 기반으로 하는 Nova Carter는 차세대 자율 모바일 로봇의 개발 및 배포를 가속화하는 완전한 로봇 개발 플랫폼입니다.AMR). 정확하고 전 세계적으로 일관된 미터법 지도를 생성하기 위해 3D LiDAR가 장착될 수 있습니다.
다음을 수행하여 아이작 ROS 문서우리는 로봇을 원격 조작하여 재빨리 점유 지도를 구축했습니다. 이 지도는 나중에 ReMEmbR 데이터베이스를 구축할 때 위치 파악과 최종 로봇 배포를 위한 경로 계획 및 탐색에 사용됩니다.
메모리 빌더 실행
환경 지도를 만든 후 두 번째 단계는 ReMEmbR에서 사용하는 벡터 데이터베이스를 채우는 것이었습니다. 이를 위해 우리는 로봇을 원격 조종하면서 달리고 있었습니다. AMCL 글로벌 현지화를 위해 Nova Carter를 사용하여 이 작업을 수행하는 방법에 대한 자세한 내용은 다음을 참조하세요. 튜토리얼: Isaac Perceptor 및 Nav2를 사용한 자율 내비게이션.
백그라운드에서 실행되는 현지화를 통해 우리는 메모리 구축 단계와 관련된 두 개의 추가 ROS 노드를 시작했습니다.
첫 번째 ROS 노드는 빌라 로봇 카메라 이미지에 대한 캡션을 생성하는 모델입니다. 이 노드는 장치에서 실행되므로 네트워크가 간헐적으로 작동하는 경우에도 안정적인 데이터베이스를 구축할 수 있습니다.
다음을 사용하면 Jetson에서 이 노드를 더 쉽게 실행할 수 있습니다. NanoLLM 양자화 및 추론을 위해. 이 라이브러리는 다른 많은 라이브러리와 함께 젯슨 AI 연구소. 최근에 출시된 ROS 패키지도 있습니다(ros2_nanollm) NanoLLM 모델을 ROS 애플리케이션과 쉽게 통합할 수 있습니다.
두 번째 ROS 노드는 VILA에서 생성된 캡션과 AMCL 노드에서 추정한 전역 포즈를 구독합니다. 캡션에 대한 텍스트 임베딩을 구축하고 포즈, 텍스트, 임베딩 및 타임스탬프를 벡터 데이터베이스에 저장합니다.
ReMEmbR 에이전트 실행
벡터 데이터베이스를 채운 후 ReMEmbR 에이전트는 사용자 쿼리에 응답하고 의미 있는 작업을 생성하는 데 필요한 모든 것을 갖추었습니다.
세 번째 단계는 다음을 실행하는 것이었습니다. 라이브 데모. 로봇의 메모리를 정적으로 만들기 위해 이미지 캡션 및 메모리 구축 노드를 비활성화하고 ReMEmbR 에이전트 노드를 활성화했습니다.
앞서 자세히 설명했듯이 ReMEmbR 에이전트는 사용자 쿼리를 받고, 벡터 데이터베이스에 쿼리하고, 로봇이 취해야 할 적절한 조치를 결정하는 일을 담당합니다. 이 경우 액션은 사용자의 쿼리에 대응되는 목적지 목표 포즈이다.
그런 다음 사용자 쿼리를 수동으로 입력하여 시스템을 처음부터 끝까지 테스트했습니다.
- “가장 가까운 엘리베이터로 데려다 주세요”
- “간식 먹을 수 있는 곳으로 데려가 주세요”
ReMEmbR 에이전트는 최상의 목표 포즈를 결정하고 이를 /goal_pose
주제. 그런 다음 경로 플래너는 로봇이 이 목표를 탐색하기 위해 따를 전역 경로를 생성합니다.
음성 인식 추가
실제 애플리케이션에서 사용자는 쿼리를 입력하기 위해 터미널에 액세스할 수 없으며 로봇과 상호 작용할 수 있는 직관적인 방법이 필요할 수 있습니다. 이를 위해 음성 인식을 통합하여 쿼리를 생성함으로써 애플리케이션을 한 단계 더 발전시켰습니다. 대리인을 위한 것입니다.
Jetson Orin 플랫폼에서는 음성 인식 통합이 간단합니다. 우리는 최근 출시된 ROS 노드를 작성하여 이를 달성했습니다. 속삭임TRT 프로젝트. WhisperTRT는 OpenAI의 속삭임 모델을 다음과 같이 최적화합니다. 엔비디아 텐서RTNVIDIA Jetson AGX Orin 및 NVIDIA Jetson Orin Nano에서 지연 시간이 짧은 추론을 가능하게 합니다.
WhisperTRT ROS 노드는 PyAudio를 사용하여 마이크에 직접 액세스하고 음성 주제에 대해 인식된 음성을 게시합니다.
모두 함께
모든 구성 요소를 결합하여 로봇의 전체 데모를 만들었습니다.
시작하기
이 게시물이 여러분의 탐구에 영감을 주기를 바랍니다. 생성 AI 로봇 공학에서. 이 게시물에 제시된 내용에 대해 자세히 알아보려면 ReMEmBr 코드를 사용해 보고 자신만의 생성 AI 로봇 공학 애플리케이션 구축을 시작하십시오. 다음 리소스를 참조하세요.
- 기억하다 웹사이트
- /NVIDIA-AI-IOT/remembr GitHub 저장소
- ReMEmbR: 로봇 탐색을 위한 장수평 시공간 기억 구축 및 추론 종이
- 엔비디아 아이작 ROS 선적 서류 비치
- 노바 카터
- NVIDIA Jetson AI 연구소
가입하세요 NVIDIA 개발자 프로그램 개발 목표를 지원하기 위한 추가 리소스 및 참조 아키텍처에 대한 업데이트를 확인하세요.
자세한 내용은 당사를 탐색해 보세요. 선적 서류 비치 우리의 로봇 커뮤니티에 가입하세요 개발자 포럼 그리고 유튜브 채널. 따라가다 자기 주도적 훈련 및 웹 세미나(아이작 로스 그리고 아이작 심).
저자 소개
Abrar Anwar는 박사 학위입니다. University of Southern California의 학생이자 NVIDIA의 인턴입니다. 그의 연구 관심 분야는 언어와 로봇 공학의 교차점이며, 내비게이션과 인간-로봇 상호 작용에 중점을 두고 있습니다.
Anwar는 B.Sc.를 받았습니다. 오스틴에 있는 텍사스대학교에서 컴퓨터 과학을 전공했습니다.
John Welsh는 NVIDIA의 자율 기계 개발자 기술 엔지니어로 NVIDIA Jetson을 사용하여 가속화된 애플리케이션을 개발하고 있습니다. 레고든, 로봇이든, 기타로 연주하는 노래든, 그는 항상 새로운 것을 창조하는 것을 즐깁니다.
Welsh는 메릴랜드 대학교에서 로봇 공학 및 컴퓨터 비전에 중점을 두고 전기 공학 학사 및 석사 학위를 취득했습니다.
Yan Chang은 NVIDIA의 수석 엔지니어이자 수석 엔지니어링 관리자입니다. 그녀는 현재 로봇 모빌리티 팀을 이끌고 있습니다.
가입하기 전에 회사Chang은 행동 기반 모델 팀을 이끌었습니다. Zoox아마존의 자율주행차 개발 자회사. 그녀는 박사 학위를 받았습니다. 미시간 대학교 출신.
편집자 주: 이 기사는 NVIDIA의 허가를 받아 배포되었습니다. 기술 블로그.
로보비즈니스 캘리포니아주 산타클라라에서 10월 16일과 17일에 열리는 2024년은 NVIDIA로부터 더 많은 것을 배울 수 있는 기회를 제공할 것입니다. NVIDIA의 로봇공학 및 엣지 AI 생태계 책임자인 Amit Goel이 이번 행사에 참여할 예정입니다. 기조 연설 패널 “로봇공학 혁신의 미래 추진”에 관한 내용입니다.
또한 행사 첫날에는 산드라 스카프NVIDIA의 로봇공학 부문 수석 전략적 제휴이자 생태계 관리자인 가 “제너레이티브 AI가 로봇공학에 미치는 영향”에 관한 패널에 참여할 예정입니다.
게시물 ReMEmbR은 생성 AI가 로봇의 추론과 행동을 어떻게 도울 수 있는지 보여줍니다. 처음 등장한 로봇 보고서.