그들은 우리에게 요원을 약속했지만 우리가 얻은 것은 정적 체인이었습니다.

2월 11, 2025

2023 년 봄, 세계는 LLM 기반 AI 에이전트의 출현에 대해 흥분했습니다. 강력한 데모와 같은 autogpt 그리고 babyagi LLM이 루프에서 실행되고, 다음 조치를 선택하고, 결과를 관찰하고, 다음 작업을 한 번에 한 단계 (React 프레임 워크라고도 함)의 잠재력을 보여주었습니다. 이 새로운 방법은 다단계 작업을 자율적이고 일반적으로 수행하는 에이전트에 전원을 공급할 것으로 예상되었습니다. 목표와 일련의 도구를 제공하면 나머지를 처리합니다. 2024 년 말까지 조경에는 AI 에이전트와 AI 에이전트 건설 프레임 워크가 가득합니다. 그러나 그들은 약속에 대해 어떻게 측정합니까?

순진한 에이전트가 순진한 것으로 말하는 것이 안전합니다. 반응 프레임 워크 심각한 한계로 고통받습니다. 몇 가지 도구를 사용하여 몇 단계 이상 필요한 작업을 제공하면 비참하게 실패합니다. 명백한 대기 시간 문제를 넘어서, 그들은 트랙을 잃고, 지침을 따르지 않고, 너무 일찍 멈추거나 너무 늦게 멈추고, 각 시도마다 크게 다른 결과를 낳을 것입니다. 그리고 그것은 놀라운 일이 아닙니다. React 프레임 워크는 예측할 수없는 LLM의 한계를 취하고 단계의 수에 의해 복합됩니다. 그러나 실제 유용 사례, 특히 기업에서 해결하려는 에이전트 건축업자는 이러한 수준의 성능과 관련이 없습니다. 복잡한 다중 단계 워크 플로우에 대한 신뢰할 수 있고 예측 가능하며 설명 가능한 결과가 필요합니다. 또한 LLM의 예측할 수없는 특성을 악화시키기보다는 완화하는 AI 시스템이 필요합니다.

그렇다면 오늘날 기업에 에이전트가 어떻게 건설됩니까? 몇 가지 이상의 도구와 몇 가지 단계 (예 : 대화 레이그)가 필요한 사용 사례의 경우, 오늘날의 에이전트 빌더는 정적 체인에 크게 의존하는 방법에 대한 역동적이고 자율적 인 약속을 포기했습니다. 특정 사용 사례. 이 접근법은 전통적인 소프트웨어 엔지니어링과 비슷하며 RECT의 에이전트 약속과는 거리가 멀다. 더 높은 수준의 제어 및 신뢰성을 달성하지만 자율성과 유연성이 부족합니다. 따라서 솔루션은 개발 집약적이고 적용이 좁으며 입력 공간과 환경의 높은 수준의 변화를 해결하기에는 너무 견고합니다.

확실히, 정적 사슬 관행은 그들이 “정적”의지에 따라 다를 수 있습니다. 일부 체인은 LLM을 사용하여 원자 단계 (예 : 정보를 추출하거나 텍스트를 요약하거나 메시지를 작성하는 것) 만 수행하는 반면, 다른 체인은 LLM을 사용하여 런타임에 동적으로 결정을 내립니다 (예 : 체인의 대체 흐름 사이의 LLM 라우팅 또는 단계의 결과를 검증하는 LLM은 다시 실행 해야하는지 여부를 결정합니다). 어쨌든 LLM이 솔루션의 역동적 인 의사 결정에 책임이있는 한, 우리는 필연적으로 신뢰성과 자율성 사이의 상충 관계에 사로 잡혀 있습니다. 솔루션은 정적이며 더 신뢰할 수 있고 예측 가능하지만 적용이 덜 좁고 개발 집약적입니다. 더 많은 솔루션은 역동적이고 자율적이며, 더 일반적이며 건축하기 쉽지만 신뢰성이 떨어지고 예측 가능합니다.

이 트레이드 오프는 다음 그래픽으로 표시 될 수 있습니다.

이것은 왜 우리가 오른쪽 상단 사분면에 배치 될 수있는 에이전트 프레임 워크를 아직 보지 못했습니까? 우리는 자율성에 대한 신뢰성을 영원히 트레이드 할 운명입니까? 신뢰성을 희생하지 않고 React 에이전트의 간단한 인터페이스 (목표와 도구 세트를 가져 와서 파악하십시오)의 간단한 인터페이스를 제공하는 프레임 워크를 얻을 수 없습니까?

대답은 – 우리는 할 수 있고 우리는 할 것입니다! 그러나 우리는 우리가 모든 일을 잘못하고 있음을 깨달아야합니다. 모든 현재 에이전트 건설 프레임 워크는 공통 결함을 공유합니다. 이들은 LLM에 동적이고 자율적 인 구성 요소로 의존합니다. 그러나 자율적이고 신뢰할 수있는 에이전트를 만들기 위해 필요한 중요한 요소는 계획 기술입니다. LLM은 훌륭한 플래너가 아닙니다.

그러나 첫째,“계획”이란 무엇입니까? “계획”함으로써 우리는 원하는 결과로 이어지는 대체 행동 과정을 명시 적으로 모델링하고 예산 제약 하에서 이러한 대안을 효율적으로 탐색하고 이용할 수있는 능력을 의미합니다. 매크로 및 마이크로 수준 모두에서 계획을 세워야합니다. 거시 계획은 작업을 의존적이고 독립적 인 단계로 분류하여 원하는 결과를 달성하기 위해 실행해야합니다. 종종 간과되는 것은 단계 수준에서 원하는 결과를 보장하기위한 마이크로 플랜닝의 필요성입니다. 더 많은 추론 시간 컴퓨팅을 사용하여 신뢰성을 높이고 단일 단계 수준에서 보증을 달성하기위한 많은 전략이 있습니다. 예를 들어, 시맨틱 검색 쿼리를 여러 번 역설 할 수 있고, 주어진 쿼리 당 더 많은 컨텍스트를 검색하고, 더 큰 모델을 사용할 수 있으며, LLM에서 더 많은 추론을 얻을 수 있습니다. 최고의 것. 좋은 마이크로 플랜너는 효율적으로 추론 시간 컴퓨팅을 사용하여 주어진 컴퓨팅 및 대기 시간 예산에 따라 최상의 결과를 얻을 수 있습니다. 당면한 특정 작업에 의해 필요한 자원 투자를 확장합니다. 이렇게하면 Planful AI 시스템은 LLM의 확률 적 특성을 완화하여 단계 수준에서 보장 된 결과를 달성 할 수 있습니다. 그러한 보증이 없다면, 우리는 최고의 거시적 계획조차 훼손 할 복합 오류 문제로 돌아 왔습니다.

그러나 왜 LLM이 플래너 역할을 할 수 없습니까? 결국, 그들은 고급 지침을 자연어 또는 코드로 정의 된 합리적인 사고 또는 계획으로 번역 할 수 있습니다. 그 이유는 계획에 그 이상이 필요하기 때문입니다. 계획에는 원하는 결과를 합리적으로 이끌어 내고 각 대안의 예상 유틸리티 및 예상 비용 (컴퓨팅 및/또는 대기 시간)에 대한 이유를 합리적으로 이끌어 낼 수있는 대체 행동 과정을 모델링 할 수있는 능력이 필요합니다. LLM은 가용 한 행동 과정의 표현을 잠재적으로 생성 할 수 있지만 해당 예상 유틸리티 및 비용을 예측할 수는 없습니다. 예를 들어, 모델 X 대 모델 Y를 사용하여 특정 상황에 따라 답을 생성하는 예상 유틸리티 및 비용은 무엇입니까? 인덱스 된 문서 코퍼스에서 CRM에 대한 API 호출에 특정 정보를 찾는 예상 유용성은 무엇입니까? 당신의 LLM에는 단서가 없습니다. 그리고 정당한 이유 – 이러한 확률 적 특성의 역사적 흔적은 야생에서는 거의 발견되지 않으며 LLM 교육 데이터에는 포함되지 않습니다. 또한 LLM이 획득 할 수있는 일반적인 지식과 달리 AI 시스템이 작동 할 특정 도구 및 데이터 환경에만 특이적인 경향이 있습니다. LLMS가 예상 유틸리티와 비용을 예측할 수 있더라도 가장 효과적인 행동 과정을 선택하는 것에 대한 추론은 LLM의 다음 토큰 예측에 의해 안정적으로 수행 될 수없는 논리적 결정 이론적 공제입니다.

그렇다면 AI 계획 기술의 누락 된 성분은 무엇입니까? 특정 도구 및 데이터 환경에서 특정 작업 당 대체 행동 과정과 해당 유틸리티 및 비용 확률을 명시 적으로 모델링하기 위해 경험 및 시뮬레이션에서 배울 수있는 플래너 모델이 필요합니다. 상기 행동과 확률 과정을 대표하고 추론하는 데 사용될 수있는 계획 정의 언어 (PDL)가 필요합니다. PDL에 정의 된 주어진 계획을 결정적이고 효율적으로 실행할 수있는 실행 엔진이 필요합니다.

어떤 사람들은 이미이 약속을 전달하는 데 열심히 일하고 있습니다. 그때까지 정적 체인을 계속 구축하십시오. 그들을“에이전트”라고 부르지 마십시오.

게시물 그들은 우리에게 요원을 약속했지만 우리가 얻은 것은 정적 체인이었습니다. 먼저 나타났습니다 Unite.ai.

News Week
Magazine PRO

Company

그들은 우리에게 요원을 약속했지만 우리가 얻은 것은 정적 체인이었습니다.

LEAVE A REPLY Cancel reply

About us

Company

The latest

글로벌 연결성 재고 : 성층권 UAV가 위성을 능가 할 수있는 이유

Lucid, Nuro, Uber 팀은 Global Robotaxi Fleet에서 팀을 구성합니다

SS 혁신은 100 개의 외과 로봇 배치를 능가합니다

News WeekMagazine PRO

Company

관련된 글:

관련된 글:

LEAVE A REPLY Cancel reply

About us

Company

The latest

글로벌 연결성 재고 : 성층권 UAV가 위성을 능가 할 수있는 이유

Lucid, Nuro, Uber 팀은 Global Robotaxi Fleet에서 팀을 구성합니다

SS 혁신은 100 개의 외과 로봇 배치를 능가합니다

News Week
Magazine PRO