최근 몇 년 동안 인공 지능 (AI)은 산업 전반에 걸쳐 혁신을 주도하기위한 실용적인 도구로 등장했습니다. 이 진보의 최전선에는 인간 언어를 이해하고 생성하는 능력으로 알려진 큰 언어 모델 (LLM)이 있습니다. LLM은 대화 AI 및 콘텐츠 제작과 같은 작업에서 잘 수행되지만 종종 구조화 된 추론과 계획이 필요한 복잡한 실제 문제로 어려움을 겪고 있습니다.
예를 들어, LLMS에 비행 일정, 회의 시간, 예산 제약 및 적절한 휴식과 관련된 다중 도시 비즈니스 여행을 계획하는 경우 개별 측면에 대한 제안을 제공 할 수 있습니다. 그러나 그들은 종종 이러한 측면을 통합하여 경쟁 우선 순위를 효과적으로 균형을 맞추는 데 어려움을 겪습니다. LLM이 실제 문제를 자율적으로 해결할 수있는 AI 에이전트를 구축하는 데 점점 더 많이 사용됨에 따라 이러한 제한은 훨씬 더 명백 해집니다.
Google DeepMind는 최근이 문제를 해결하기위한 솔루션을 개발했습니다. 자연 선택에서 영감을 얻은이 접근법은 알려져 있습니다 마음의 진화반복 적응을 통해 문제 해결 전략을 개선합니다. LLM을 실시간으로 안내함으로써 복잡한 실제 작업을 효과적으로 해결하고 동적 시나리오에 적응할 수 있습니다. 이 기사에서는이 혁신적인 방법이 어떻게 작동하는지, 잠재적 응용 프로그램 및 AI 중심 문제 해결의 미래에 대한 의미를 탐색 할 것입니다.
LLM이 복잡한 추론과 계획으로 어려움을 겪는 이유
LLM은 책, 기사 및 온라인 컨텐츠와 같은 큰 텍스트 데이터 세트의 패턴을 분석하여 문장에서 다음 단어를 예측하도록 훈련됩니다. 이를 통해 논리적이고 문맥 적으로 적절하게 나타나는 응답을 생성 할 수 있습니다. 그러나이 훈련은 의미를 이해하기보다는 패턴을 인식하는 데 기초합니다. 결과적으로 LLM은 논리적으로 보이지만 더 깊은 추론 또는 구조화 된 계획이 필요한 작업으로 어려움을 겪는 텍스트를 생성 할 수 있습니다.
핵심 제한은 LLMS가 정보를 처리하는 방식에 있습니다. 그들은 논리가 아닌 확률이나 패턴에 중점을 둡니다. 즉, 비행 옵션이나 호텔 권장 사항을 제안하는 것과 같은 고립 된 작업을 처리 할 수 있지만 이러한 작업을 응집력있는 계획에 통합해야 할 때 실패합니다. 또한 시간이 지남에 따라 상황을 유지하기가 어렵습니다. 복잡한 작업은 종종 이전의 결정을 추적하고 새로운 정보가 발생할 때 적응해야합니다. 그러나 LLM은 확장 된 상호 작용에서 초점을 잃는 경향이있어 단편화되거나 일관성이없는 출력이 발생합니다.
마음의 진화가 어떻게 작동하는지
Deepmind의 마음의 진화는 자연 진화의 원칙을 채택함으로써 이러한 결점을 해결합니다. 이 접근법은 복잡한 쿼리에 대한 단일 응답을 생성하는 대신 여러 잠재적 솔루션을 생성하고 반복적으로이를 개선하며 구조화 된 평가 프로세스를 통해 최상의 결과를 선택합니다. 예를 들어, 프로젝트에 대한 팀 브레인 스토밍을 고려하십시오. 어떤 아이디어는 훌륭하고 다른 아이디어는 덜합니다. 팀은 모든 아이디어를 평가하여 최고를 유지하고 나머지를 버립니다. 그런 다음 최고의 아이디어를 개선하고 새로운 변형을 도입하며 최상의 솔루션에 도달 할 때까지 프로세스를 반복합니다. 마음의 진화는이 원칙을 LLM에 적용합니다.
다음은 작동 방식에 대한 고장입니다.
- 세대: 프로세스는 LLM이 주어진 문제에 대한 여러 응답을 만드는 것으로 시작합니다. 예를 들어, 여행 계획 작업 에서이 모델은 예산, 시간 및 사용자 선호도에 따라 다양한 여정을 작성할 수 있습니다.
- 평가: 각 솔루션은 피트니스 기능에 대해 평가됩니다. 이는 작업의 요구 사항을 얼마나 잘 충족시키는 지에 대한 척도입니다. 품질이 낮은 응답은 폐기되는 반면 가장 유망한 후보자는 다음 단계로 진출합니다.
- 정제: 마음의 진화의 독특한 혁신은 LLM 내의 두 사람인 저자와 비평가 사이의 대화입니다. 저자는 솔루션을 제안하는 반면, 비평가는 결함을 식별하고 피드백을 제공합니다. 이 구조화 된 대화는 인간이 비판과 개정을 통해 아이디어를 개선하는 방법을 반영합니다. 예를 들어, 저자가 예산을 초과하는 식당 방문을 포함하는 여행 계획을 제안한다면, 비평가는 이것을 지적합니다. 그런 다음 저자는 비평가의 우려를 해결하기위한 계획을 수정합니다. 이 프로세스를 통해 LLM은 다른 프롬프트 기술을 사용하여 이전에 수행 할 수 없었던 깊은 분석을 수행 할 수 있습니다.
- 반복 최적화 : 정제 된 솔루션은 정제 된 솔루션을 생성하기 위해 추가 평가 및 재조합을 거칩니다.
이주기를 반복함으로써 Mind Evolution은 솔루션의 품질을 반복적으로 향상시켜 LLM이 복잡한 문제를보다 효과적으로 해결할 수 있도록합니다.
행동의 마음의 진화
Deepmind는이 접근법을 테스트했습니다 벤치 마크 좋다 Travelplanner 그리고 자연 계획. 이 접근법을 사용하여 Google의 Gemini는 TravelPlanner에서 95.2%의 성공률을 달성했으며, 이는 5.6%의 기준선에서 뛰어난 개선입니다. 고급 Gemini Pro로 성공률은 거의 99.9%로 증가했습니다. 이 혁신적인 성과는 실질적인 도전을 해결하는 데있어 마음의 진화의 효과를 보여줍니다.
흥미롭게도, 모델의 효과는 작업 복잡성에 따라 증가합니다. 예를 들어, 단일 패스 방법은 여러 도시와 관련된 여러 날의 여정으로 어려움을 겪었지만 Mind Evolution은 지속적으로 성능이 우수하여 제약 수가 증가하더라도 높은 성공률을 유지했습니다.
도전과 미래 방향
성공에도 불구하고 마음의 진화는 제한이 없습니다. 이 접근법은 반복적 인 평가 및 개선 프로세스로 인해 중요한 계산 자원이 필요합니다. 예를 들어, Mind Evolution으로 Travelplanner 과제를 해결하면 3 백만 개의 토큰과 167 개의 API 호출, 즉 기존의 방법보다 더 많은 것을 소비했습니다. 그러나이 접근법은 철저한 검색과 같은 무차별 전략보다 더 효율적입니다.
또한 특정 작업을위한 효과적인 피트니스 기능을 설계하는 것은 어려운 작업이 될 수 있습니다. 미래의 연구는 계산 효율성을 최적화하고 기술의 적용 가능성을 창의적 작문 또는 복잡한 의사 결정과 같은 광범위한 문제로 확장하는 데 중점을 둘 수 있습니다.
탐사를위한 또 다른 흥미로운 영역은 도메인 별 평가자의 통합입니다. 예를 들어, 의료 진단에서 전문 지식을 피트니스 기능에 통합하면 모델의 정확성과 신뢰성을 더욱 향상시킬 수 있습니다.
계획 이외의 응용 프로그램
Mind Evolution은 주로 계획 작업에 대해 평가되지만 창의적 작문, 과학적 발견 및 심지어 코드 생성을 포함한 다양한 영역에 적용될 수 있습니다. 예를 들어, 연구원들은 STEGPOET라는 벤치 마크를 소개했는데,이 벤치 마크는시에서 숨겨진 메시지를 인코딩하도록 모델에 도전합니다. 이 작업은 여전히 어렵지만 Mind Evolution은 최대 79.2%의 성공률을 달성하여 전통적인 방법을 초과합니다.
자연어로 솔루션을 적응하고 발전시키는 능력은 워크 플로 개선 또는 혁신적인 제품 설계 생성과 같이 공식화하기 어려운 문제를 해결하기위한 새로운 가능성을 열어줍니다. 진화 알고리즘의 힘을 사용함으로써 Mind Evolution은 LLM의 문제 해결 기능을 향상시키기위한 유연하고 확장 가능한 프레임 워크를 제공합니다.
결론
DeepMind의 마음 진화는 LLM의 주요 제한을 극복하는 실용적이고 효과적인 방법을 소개합니다. 자연 선택에서 영감을 얻은 반복 정제를 사용함으로써 이러한 모델이 구조화 된 추론 및 계획이 필요한 복잡한 다단계 작업을 처리 할 수있는 능력을 향상시킵니다. 이 접근법은 이미 여행 계획과 같은 도전적인 시나리오에서 상당한 성공을 보여 주었으며 창의적 작문, 과학 연구 및 코드 생성을 포함한 다양한 영역에서 약속을 보여줍니다. 높은 계산 비용과 잘 설계된 피트니스 기능의 필요성과 같은 도전은 여전히 남아 있지만,이 접근법은 AI 기능을 향상시키기위한 확장 가능한 프레임 워크를 제공합니다. Mind Evolution은 실제 과제를 해결할 수있는 추론 및 계획 할 수있는보다 강력한 AI 시스템의 단계를 설정합니다.
게시물 Deepmind ‘s Mind Evolution : 실제 문제 해결을위한 큰 언어 모델에 힘을 실어주십시오. 먼저 나타났습니다 Unite.ai.