Gemini Robotics 1.5는 에이전트 경험을 가능하게합니다. Google Deepmind는 설명합니다

0
26
gemini-robotics-15는-에이전트-경험을-가능하게합니다.-google-deepmind는-설명합니다
Gemini Robotics 1.5는 에이전트 경험을 가능하게합니다. Google Deepmind는 설명합니다
Google Deepmind Gemini 모델이 작동하는 세 가지 다른 로봇 실시 예.

Google Deepmind는 최신 Gemini Robotics 모델이 여러 로봇 실시 예에서 작동 할 수 있다고 말했다. | 출처 : Google Deepmind

어제 Google Deepmind는 인공 일반 정보 또는 로봇의 AGI를 향한 단계로서“고급 사고에 대한 에이전트 경험의 잠금 해제”라고 주장하는 두 가지 모델을 소개했습니다. 새로운 모델은 다음과 같습니다.

  • Gemini Robotics 1.5 : DeepMind는 이것이 가장 유능한 비전 언어 작용 (VLA) 모델이라고 말했다. 로봇이 작업을 수행하기 위해 시각적 정보와 지침을 모터 명령으로 전환 할 수 있습니다. 또한 조치를 취하기 전에 프로세스를 보여주기 전에 로봇이 복잡한 작업을보다 투명하게 평가하고 완료 할 수 있도록합니다. 이 모델은 또한 실시 예를 통해 기술 학습을 가속화합니다.
  • Gemini Robotics-er 1.5 : 이 회사는 이것이 가장 유능한 비전 언어 모델 (VLM)이라고 말했다. 물리적 세계에 대한 이유는 기본적으로 디지털 도구를 부르며 미션을 완료하기위한 상세한 다중 단계 계획을 만듭니다. DeepMind는 이제 공간 이해 벤치 마크에서 최첨단 성과를 달성했다고 말했다.

DeepMind는 Gemini Robotics-er 1.5를 Gemini Application Programming Interface (API)를 통해 개발자에게 제공합니다. 공부하는 Google. Gemini Robotics 1.5는 현재 파트너를 선택할 수 있습니다.

그만큼 회사 릴리스는 물리적 세계에서 AGI를 해결하는 데 중요한 이정표를 표시한다고 주장했다. 에이전트 기능을 도입함으로써 구글은 그 이상으로 나아가고 있다고 말했다. AI 모델 이는 명령에 반응하고 추론, 계획, 도구를 적극적으로 사용하며 일반화 할 수있는 시스템을 만드는 시스템을 작성합니다.

Deepmind는 물리적 작업에 대한 에이전트 경험을 설계합니다

대부분의 일상 업무에는 상황에 맞는 정보와 여러 단계가 필요하므로 오늘날 로봇에게 악명 높은 도전이 필요합니다. 그렇기 때문에 DeepMind는이 두 모델이 에이전트 프레임 워크에서 함께 작동하도록 설계했습니다.

Gemini Robotics-er 높은 수준의 뇌처럼 로봇의 활동을 오케스트레이션합니다. DeepMind는이 모델이 물리적 환경 내에서 논리적 결정을 계획하고 결정하는 데 탁월하다고 말했다. 최첨단 공간 이해를 가지고 있으며, 자연어로 상호 작용하고, 성공과 진행을 추정하며, Google 검색과 같은 도구를 기본적으로 호출하여 정보를 찾거나 타사 사용자 정의 기능을 사용할 수 있습니다.

VLM은 제공합니다 Gemini Robotics 1.5 비전과 언어 이해를 사용하여 특정 행동을 직접 수행하는 각 단계에 대한 자연어 지침. Gemini Robotics 1.5는 또한 로봇이 의미 적으로 복잡한 작업을 더 잘 해결하기위한 행동에 대해 생각하고 자연어로 사고 과정을 설명하여 결정을보다 투명하게 만듭니다.

이 두 모델은 핵심 Gemini 모델 제품군을 기반으로 구축되었으며 각각의 역할을 전문화하기 위해 다른 데이터 세트로 미세 조정되었습니다. Deepmind는 결합되면 로봇의 더 긴 작업과 더 다양한 환경으로 일반화하는 로봇의 능력을 증가 시킨다고 Deepmind는 말했다.

로봇은 환경을 이해하고 행동하기 전에 생각할 수 있습니다

Gemini Robotics-er 1.5는 구체화 된 추론에 최적화 된 사고 모델이라고 Google Deepmind는 말했다. 이 회사는“신뢰할 수있는 테스터 프로그램의 실제 사용 사례에서 영감을 얻은 학업 및 내부 벤치 마크에서 최첨단 성과를 달성했습니다.”라고 주장했습니다.

Deepmind는 15 개의 학문 벤치 마크에서 Gemini Robotics-er 1.5를 평가했습니다.더 미세합니다) 그리고 포인트 벤치포인팅, 이미지 질문 답변 및 비디오 질문 응답에 대한 모델의 성능을 측정합니다.

VLA 모델은 전통적으로 지시 나 언어 계획을 로봇의 움직임으로 직접 번역합니다. Gemini Robotics 1.5는 한 걸음 더 나아가 로봇이 행동하기 전에 생각할 수있게 해줍니다. 이는 여러 단계가 필요한 작업을 수행하거나 더 깊은 의미 적 이해가 필요한 작업을 수행하기 위해 자연 언어로 내부 추론 및 분석을 생성 할 수 있음을 의미합니다.

Deepmind는“예를 들어, ‘세탁소를 컬러별로 정렬’과 같은 작업을 완료 할 때 아래 비디오의 로봇은 다른 수준에서 생각합니다. “첫째, 색상별로 분류하는 것은 흰 옷을 흰색 쓰레기통과 다른 색상에 검은 색 통에 넣는 것을 이해합니다. 그런 다음 빨간 스웨터를 집어 들고 검은 색 쓰레기통에 넣는 등의 단계에 대해 생각합니다.

다단계 사고 과정에서 VLA 모델은 로봇이 성공적으로 실행할 수있는 더 긴 작업을 간단하고 짧은 세그먼트로 전환하기로 결정할 수 있습니다. 또한 모델이 새로운 작업을 해결하고 환경의 변화에보다 강력 해지는 데 도움이됩니다.

Gemini는 실시 예를 통해 배웁니다

로봇은 모든 모양과 크기로 제공되며 다른 감지 기능과 다른 자유도를 가지고있어 한 로봇에서 다른 로봇에서 다른 로봇으로 배운 동작을 전송하기가 어렵습니다.

Deepmind는 Gemini Robotics 1.5가 다른 실시 예를 통해 배우는 놀라운 능력을 보여줍니다. 모델을 각각의 새로운 실시 예에 전문화 할 필요없이 한 로봇에서 다른 로봇으로 배운 동작을 전달할 수 있습니다. 이것은 새로운 행동을 배우는 것을 가속화하여 로봇이 더 똑똑하고 유용 해지는 데 도움이됩니다.

예를 들어, DeepMind는 작업이 알로하 2 훈련 중 로봇도 그냥 작업하십시오 Apptronik ‘s 휴머노이드 로봇, 아폴로 및 바이 암 솔직한 로봇 및 그 반대도 마찬가지입니다.

DeepMind는 Gemini Robotics 1.5는 연기 전 안전성에 대한 생각, 기존 Gemini 안전 정책과의 정교함을 통해 인간과의 정중 한 대화를 보장하며 필요한 경우 로봇에 저수준 안전 하위 시스템 (예 : 충돌 회피)을 유발하는 것을 포함하여 높은 수준의 의미 론적 추론을 통해 안전에 대한 전체적인 접근 방식을 구현한다고 말했다.

Gemini Robotics 모델의 안전한 개발을 안내하기 위해 DeepMind는 또한 더 나은 테일 범위, 개선 된 주석, 새로운 안전 질문 유형 및 새로운 비디오 방식으로 시맨틱 안전을 평가하고 개선하기위한 포괄적 인 데이터 세트 모음 인 Asimov 벤치 마크의 업그레이드를 발표하고 있습니다. Asimov 벤치 마크에 대한 안전 평가에서 Gemini Robotics-ER 1.5는 최신 성능을 보여 주며 사고 능력은 시맨틱 안전에 대한 이해가 향상되고 물리적 안전 제약에 대한 더 나은 준수에 크게 기여합니다.

편집자 주 : Robobusiness 캘리포니아 주 산타 클라라에서 10 월 15 일과 16 일에있을 2025 년에는 트랙이 포함됩니다. 물리적 ai 그리고 휴머노이드 로봇. 등록이 시작되었습니다.


2025 Robobusiness 등록을위한 사이트 광고.

게시물 Gemini Robotics 1.5는 에이전트 경험을 가능하게합니다. Google Deepmind는 설명합니다 먼저 나타났습니다 로봇 보고서.