보기, 생각, 설명 : AI의 비전 언어 모델의 상승

Date:

약 10 년 전에 인공 지능은 이미지 인식과 언어 이해로 나뉘어졌습니다. 비전 모델은 객체를 발견 할 수 있지만 설명 할 수는 없으며 언어 모델은 텍스트를 생성하지만 “볼 수는 없습니다”. 오늘날, 그 분열은 빠르게 사라지고 있습니다. 비전 언어 모델 (VLMS) 이제 시각적 및 언어 능력을 결합하여 이미지를 해석하고 거의 인간적인 느낌으로 설명 할 수 있습니다. 그것들이 진정으로 주목할만한 것은 단계별 추론 과정 ( 생각의 사슬이 모델은 의료 및 교육과 같은 산업 전반의 강력하고 실용적인 도구로 전환하는 데 도움이됩니다. 이 기사에서는 VLMS의 작동 방식, 왜 추론이 중요한지, 그리고 그들이 의약품에서 자율 주행 자동차로의 분야를 어떻게 변화시키는 지 탐구 할 것입니다.

비전 언어 모델 이해

비전 언어 모델 또는 VLM은 이미지와 텍스트를 동시에 이해할 수있는 인공 지능 유형입니다. 텍스트 나 이미지 만 처리 할 수있는 이전 AI 시스템과 달리 VLM 은이 두 기술을 하나로 묶습니다. 이것은 그들을 엄청나게 다재다능하게 만듭니다. 그들은 그림을보고 무슨 일이 일어나고 있는지 설명하거나 비디오에 대한 질문에 답하거나 서면 설명을 기반으로 이미지를 만들 수 있습니다.

예를 들어, VLM에 공원에서 달리는 개 사진을 설명하도록 요청하는 경우. VLM은 단지“개가 있습니다.”라고 말하는 것이 아닙니다. “개는 큰 떡갈 나무 근처에서 공을 쫓고 있습니다.” 그것은 이미지를보고 의미가있는 방식으로 단어에 연결하고 있습니다. 시각적 및 언어 이해를 결합하는이 기능은 온라인 사진 검색에서 의료 이미징과 같은보다 복잡한 작업을 지원하는 것에 이르기까지 모든 종류의 가능성을 만듭니다.

VLM은 핵심에서 이미지를 분석하는 비전 시스템과 텍스트를 처리하는 언어 시스템의 두 가지 주요 부분을 결합하여 작동합니다. 비전 부분은 모양과 색상과 같은 세부 사항을 선택하고 언어 부분은 해당 세부 사항을 문장으로 바꿉니다. VLM은 수십억의 이미지 텍스트 쌍이 포함 된 대규모 데이터 세트에 대한 교육을 받으므로 강력한 이해와 높은 정확도를 개발할 수있는 광범위한 경험을 제공합니다.

VLM에서 어떤 추론을 의미하는지

생각한 추론 또는 COT는 우리가 문제를 해결하여 문제를 해결하는 방법과 마찬가지로 Ai를 단계별로 생각하게 만드는 방법입니다. VLMS에서는 AI가 이미지에 대해 물어 보면 답을 제공하는 것이 아니라, 그곳에서 어떻게 도착했는지 설명하고 각 논리적 단계를 설명합니다.

촛불이 달린 생일 케이크 사진을 VLM에 보여주고“사람은 몇 살입니까?”라고 가정 해 봅시다. 침대가 없으면 숫자를 추측 할 수 있습니다. 간이 침대를 사용하면 다음과 같이 생각합니다.“좋아요, 촛불이 달린 케이크가 보입니다. 양초는 보통 누군가의 나이를 보여줍니다. 계산합시다. 당신은 그것이 전개 될 때 추론을 따를 수 있으므로 그 대답을 훨씬 더 신뢰할 수 있습니다.

마찬가지로, 교통 장면을 VLM에 보여 주면서“교차하는 것이 안전합니까?”라고 물었습니다. VLM은 “보행자 빛은 빨간색이므로 건너지 말아야합니다. 근처로 돌면 차가 멈추고 멈추지 않았습니다. 즉, 지금 당장 안전하지 않다는 것을 의미합니다.” AI는 이러한 단계를 진행함으로써 이미지에서주의를 기울이는 내용과 그것이 무엇을하는지 결정하는 이유를 정확하게 보여줍니다.

VLM에서 생각한 사슬이 중요한 이유

COT 추론을 VLM에 통합하면 몇 가지 주요 장점이 있습니다.

먼저 AI를 더 쉽게 신뢰할 수 있습니다. 그것이 단계를 설명 할 때, 당신은 그것이 어떻게 대답에 도달했는지에 대한 명확한 이해를 얻게됩니다. 이것은 건강 관리와 같은 분야에서 중요합니다. 예를 들어, MRI 스캔을 볼 때 VLM은“뇌의 왼쪽에 그림자가 보입니다. 그 영역은 음성을 조절하고 환자가 말하는 데 어려움을 겪고있어 종양이 될 수 있습니다.” 의사는 그 논리를 따르고 AI의 의견에 대해 자신감을 느낄 수 있습니다.

둘째, AI가 복잡한 문제를 해결하는 데 도움이됩니다. 물건을 분해함으로써 빠른 모양보다 더 필요한 질문을 처리 할 수 ​​있습니다. 예를 들어, 촛불을 세는 것은 간단하지만 바쁜 거리에서 안전을 알아 내면 조명 검사, 자동차를 발견, 속도를 판단하는 등 여러 단계가 걸립니다. COT를 사용하면 AI가 해당 복잡성을 여러 단계로 나누어 처리 할 수 ​​있습니다.

마지막으로 AI를보다 적응력있게 만듭니다. 단계적으로 이유를 이유로, 알고있는 것을 새로운 상황에 적용 할 수 있습니다. 이전에 특정 유형의 케이크를 본 적이 없다면 암기 된 패턴에 의존하는 것이 아니라 촛불 연결을 생각하기 때문에 여전히 촛불 연결을 파악할 수 있습니다.

생각과 VLM의 체인이 산업을 재정의하는 방법

COT와 VLM의 조합은 다른 필드에 큰 영향을 미칩니다.

  • 건강 관리 : 의학에서 VLM은 좋아합니다 Google의 Med-Palm 2 COT를 사용하여 복잡한 의료 질문을 작은 진단 단계로 분류하십시오. 예를 들어, 흉부 엑스레이와 기침과 두통과 같은 증상이 주어지면 AI는 다음과 같이 생각할 수 있습니다.“이러한 증상은 추위, 알레르기 또는 더 나쁜 것일 수 있습니다. 부어 오른 림프절이 없으므로 심각한 감염이 없을 것입니다. 폐는 명확하지 않으므로 아마도 폐렴이 가장 적합합니다.” 그것은 옵션을 걸어 다니며 대답에 착륙하여 의사들과 함께 일할 명확한 설명을 제공합니다.
  • 자율 주행 차 : 자율 주행 차량의 경우 COT가 강화 된 VLM은 안전 및 의사 결정을 향상시킵니다. 예를 들어, 자율 주행 차량은 보행자 신호 확인, 이동 차량 식별 및 진행할 수 있는지 결정하는 교통 장면을 단계별로 분석 할 수 있습니다. 같은 시스템 Wayve의 Lingo-1 자전거를위한 속도를 늦추는 것과 같은 행동을 설명하기 위해 자연 언어 논평을 생성하십시오. 이를 통해 엔지니어와 승객은 차량의 추론 과정을 이해하는 데 도움이됩니다. 단계별 논리는 또한 시각적 입력과 상황에 대한 지식을 결합하여 비정상적인 도로 조건을 더 잘 처리 할 수 ​​있습니다.
  • 지리 공간 분석 : 구글 Gemini 모델이 적용됩니다 맵 및 위성 이미지와 같은 공간 데이터에 대한 COT 추론. 예를 들어, 위성 이미지, 일기 예보 및 인구 통계 데이터를 통합하여 허리케인 손상을 평가 한 다음 복잡한 질문에 대한 명확한 시각화 및 답변을 생성 할 수 있습니다. 이 기능은 기술 전문 지식이 필요하지 않고 의사 결정자에게시기 적절하고 유용한 통찰력을 제공함으로써 재난 대응 속도를 높입니다.
  • 로봇 공학 : 로봇 공학에서 COT 및 VLM의 통합을 통해 로봇은 다단계 작업을 더 잘 계획하고 실행할 수 있습니다. 예를 들어, 로봇이 물체를 집어 올리는 임무를 맡을 때 COT 지원 VLM을 사용하면 컵을 식별하고 최상의 파악 지점을 결정하고 충돌이없는 경로를 계획하고 움직임을 수행하면서 프로세스의 각 단계를“설명”할 수 있습니다. 같은 프로젝트 RT-2 COT가 로봇이 새로운 작업에 더 잘 적응하고 명확한 추론으로 복잡한 명령에 응답 할 수 있도록하는 방법을 보여줍니다.
  • 교육: 학습에서 AI 교사는 좋아합니다 칸 미가 침대를 사용하여 더 잘 가르칩니다. 수학 문제의 경우 학생을 안내 할 수 있습니다.“먼저 방정식을 적어 두십시오. 다음, 양쪽에서 5를 빼서 변수를 단독으로 가져옵니다. 이제 2로 나뉩니다.” 답을 넘겨주는 대신 프로세스를 진행하여 학생들이 개념을 단계별로 이해하도록 돕습니다.

결론

VLM (Vision Language Models)을 사용하면 AI는 COT (Cain-of Thought) 프로세스를 통해 인간과 유사한 단계별 추론을 사용하여 시각적 데이터를 해석하고 설명 할 수 있습니다. 이 접근법은 의료, 자율 주행 자동차, 지리 공간 분석, 로봇 공학 및 교육과 같은 산업 간의 신뢰, 적응성 및 문제 해결을 향상시킵니다. VLM은 AI가 복잡한 작업을 해결하고 의사 결정을 지원하는 방법을 변환함으로써 신뢰할 수 있고 실용적인 지능형 기술에 대한 새로운 표준을 설정하고 있습니다.

게시물 보기, 생각, 설명 : AI의 비전 언어 모델의 상승 먼저 나타났습니다 Unite.ai.

Share post:

Subscribe

spot_imgspot_img

Popular

More like this
Related

5월 21일 정부지원사업 신규 공고 리스트 (108건) _ (파일 재가공/재배포 가능)

5월 21일 108건<5/21 지원사업 신규 공고 목록> *전 영업일인 5/20에...

2025 요약을 자동화하십시오

로봇 보고서 팟 캐스트 · 2025 요약을 자동화하십시오에피소드 196에서...

Saildrone은 유럽 해상의 존재를 확대하기 위해 6 천만 달러를 가져옵니다

Advanced Censors 제품군이 장착 된 Saildrone의 시스템은 표면 위와...

Orbbec, Connect Tech를 위해 Gemini 스테레오 깊이 카메라를 지원합니다.

Orbbec의 Gemini 335LG 스테레오 비전 3D 카메라는 자율 모바일...