실제 연구에서 AI 요원은 얼마나 좋은가요? 깊은 연구 벤치 보고서 내부

0
10
실제-연구에서-ai-요원은-얼마나-좋은가요?-깊은-연구-벤치-보고서-내부
실제 연구에서 AI 요원은 얼마나 좋은가요? 깊은 연구 벤치 보고서 내부

처럼 대형 언어 모델 (LLMS) 빠르게 진화하며 강력한 연구 조교로서의 약속도 마찬가지입니다. 점점 더 간단한 사실 질문에 대답하는 것이 아니라, 다단계 추론, 상충되는 정보 평가, 웹 전체에서 데이터를 소싱하며 일관된 출력으로 합성하는 “심층 연구”작업을 다루고 있습니다.

이 새로운 기능은 이제 주요 실험실에 의해 다양한 브랜드 이름으로 판매되고 있습니다. 오페나이는이를“깊은 연구”라고 부르며, 안트로 픽은이를“확장 사고”라고 말하며, Google의 Gemini는“Search + Pro”기능을 제공하고 Perplexity 라벨은 그“프로 검색”또는“깊은 연구”를 제공합니다. 그러나 이러한 제품은 실제로 얼마나 효과적입니까? 새로운 보고서 선물 검색제목 DRB (Deep Research Bench) : 웹 리서치 에이전트 평가현재까지 가장 엄격한 평가를 제공하며 결과는 인상적인 기능과 중요한 단점을 모두 보여줍니다.

Deep Research Bench 란 무엇입니까?

Futuresearch 팀이 만든 Deep Research Bench는 멀티 단계의 웹 기반 연구 작업에 대한 AI 에이전트의 성능을 평가하기 위해 설계된 세 심하게 구성된 벤치 마크입니다. 이것은 간단한 답변으로 간단한 질문이 아닙니다. 분석가, 정책 입안자 및 실제 환경에서 연구원이 직면 한 지저분한 개방형 과제를 반영합니다.

벤치 마크에는 다음과 같은 8 가지 범주에서 89 개의 고유 한 작업이 포함됩니다.

  • 번호를 찾으십시오: 예 : “얼마나 많은 FDA 클래스 II 의료 기기 리콜이 발생 했습니까?”
  • 청구를 확인하십시오: 예 : “Chatgpt 10x는 Google 검색보다 에너지 집약적입니까?”
  • 데이터 세트를 컴파일합니다: 예 :“2019-2023 년 미국 소프트웨어 개발자를위한 직업 동향”

각 작업 유형은 인간 검증 된 답변으로 신중하게 구성되며 RetroSearch로 알려진 긁힌 웹 페이지의 냉동 데이터 세트를 사용하여 평가했습니다. 이를 통해 라이브 웹의 변동 상태를 피하면서 모델 평가 전반에 걸쳐 일관성이 유지됩니다.

에이전트 아키텍처 : React 및 Retrosearch

Deep Research Bench의 중심에는“이유 + 법”이 부족한 React Architecture가 있습니다. 이 방법은 인간 연구원이 작업을 통해 생각하고 웹 검색 수행과 같은 행동을 취하고 결과를 관찰 한 다음 반복 또는 결론을 결정함으로써 문제를 해결할 수있는 방법을 모방합니다.

이전 모델은이 루프를 명시 적으로 따르지만 새로운 “사고”모델은 종종 프로세스를 간소화하여 자신의 행동에 더 유동적으로 추론을 내립니다. 평가 전반에 걸쳐 일관성을 보장하기 위해 DRB는 정의 제작 된 정적 버전 인 Retrosearch를 소개합니다. 끊임없이 변화하는 라이브 인터넷에 의존하는 대신 에이전트는 다음과 같은 도구를 사용하여 긁힌 웹 페이지의 선별 된 아카이브를 활용합니다. 서퍼,,, 극작가그리고 스크레이퍼 요법. 척도는 인상적입니다. “증거 수집”과 같은 높은 복잡성 작업의 경우 Retrosearch는 시간이 지남에 따라 얼어 붙은 189,000 페이지 이상의 액세스를 제공하여 공정하고 복제 가능한 테스트 환경을 보장 할 수 있습니다.

어떤 AI 에이전트가 가장 잘 수행됩니까?

모든 경쟁자 중에서 Openai의 O3는 최고 성과자로 부상하여 Deep Research Bench에서 가능한 1.0 중 0.51 점을 기록했습니다. 겸손하게 들릴지 모르지만 벤치 마크의 어려움을 이해하는 것이 중요합니다. 작업 정의 및 점수의 모호성으로 인해 완벽한 에이전트조차도 약 0.8 정도가 될 것입니다. 다시 말해, 오늘날 최고의 모델조차도 여전히 잘 알고있는 체계적인 인간 연구자들에 미치지 못합니다.

그럼에도 불구하고 리더 보드는 공개 통찰력을 제공합니다. O3는 팩을 이끌었을뿐만 아니라 속도와 일관성으로 그렇게했으며 거의 ​​모든 작업 유형에서 강력한 성능을 보여줍니다. Claude 3.7 Anthropic의 소네트는“사고”와“생각하지 않는”모드 모두에서 다양성을 보여 주었다. Google의 주력 모델 인 Gemini 2.5 Pro는 구조화 된 계획 및 단계별 추론이 필요한 작업을 처리 할 수있는 능력을 두드러졌습니다. 한편, 오픈-가이트 DeepSeek-R1은 GPT-4 터보와의 속도와 개방형 모델과 폐쇄 모델 사이의 성능 간격을 좁히는 즐거운 놀라움을 제공했습니다.

전반적으로 전반적으로 명확한 패턴이 나타났습니다. 새로운 “사고 가능”모델은 초기의 상대방보다 지속적으로 성능이 우수했으며 폐쇄 소스 모델은 오픈 웨이트 대안보다 주목할만한 우위를 유지했습니다.

요원들은 어디에서 어려움을 겪고 있습니까?

Deep Research Bench 보고서에서 강조된 실패 패턴을 읽는 것은 놀랍게도 친숙하다고 느꼈습니다. 내가 개인적으로 만난 가장 실망스러운 측면 중 하나, 특히 긴 연구 또는 콘텐츠 제작 세션에서 AI 요원이 단순히 우리가하고있는 일을 잊을 때입니다. 컨텍스트 창이 늘어나면서 모델은 종종 스레드를 잃기 시작합니다. 주요 세부 사항이 사라지고 목표가 혼란스러워지고 갑자기 응답이 분리되거나 목적이 없다고 느낍니다. 어느 시점에서, 나는 지금까지 생성 된 모든 것을 버리는 것을 의미하더라도 손실을 줄이고 처음부터 시작하는 것이 종종 더 낫다는 것을 알게되었습니다.

이런 종류의 건망증은 일화가 아니라 심층 연구 벤치 평가에서 가장 중요한 실패 예측 자입니다. 그러나 그것은 유일한 반복 문제는 아닙니다. 이 보고서는 또한 일부 모델이 반복적 인 도구 사용에 속하는 방법을 강조하여 마치 루프에 갇힌 것처럼 동일한 검색을 계속해서 실행합니다. 다른 사람들은 효과적으로 검색하는 방법에 대해 비판적으로 생각하는 대신 쿼리 제작이 좋지 않고 게으름 키워드 매칭을 보여줍니다. 그리고 너무 자주, 에이전트는 조기 결론에 희생됩니다. 즉, 상자를 기술적으로 점검하지만 실제 통찰력에 미치지 못하는 반 형성 답변을 제공합니다.

최고 모델 중에서도 차이점은 엄청납니다. 예를 들어 GPT-4 터보는 이전 단계를 잊어 버리는 주목할만한 경향을 보였지만 DeepSeek-R1은 환각 또는 그럴듯한 소리를 내고 잘못된 정보를 발명합니다. 전반적으로 모델은 출력을 마무리하기 전에 소스를 교차 확인하거나 결과를 검증하지 못했습니다. 심각한 작업을 위해 AI에 의존하는 사람이라면 이러한 문제는 너무 친숙하게 느껴질 것이며, 인간처럼 진정으로 생각하고 연구 할 수있는 에이전트를 건축 할 수있는 곳에서 우리가 얼마나 멀리 가야하는지를 강조합니다.

메모리 기반 성능은 어떻습니까?

흥미롭게도, Deep Research Bench는 또한 웹 검색 또는 문서 검색과 같은 외부 도구에 액세스하지 않고 작동하는 언어 모델 인 “Toolless”에이전트라고 부르는 것을 평가했습니다. 이 에이전트는 전적으로 내부 교육 데이터 및 메모리에 의존하여 교육 중에 이전에 배운 내용에 따라 답을 생성합니다. 실제로 이것은 그들이 정보를 찾거나 확인할 수 없다는 것을 의미합니다. 그들은 그들이“기억하는 것”을 바탕으로 추측하고 있습니다.

놀랍게도, 이들 토론 에이전트는 특정 작업에 대한 전체 연구 에이전트뿐만 아니라 거의 수행했습니다. 예를 들어, 성명서의 타당성을 평가하는 것이 목표는 0.61의 평균 도구 가능 에이전트와 거의 일치하는 Validate Comment 과제에서 0.61을 기록했습니다. 이것은 O3 및 Claude와 같은 모델이 강력한 내부 사전을 가지고 있으며 웹을 검색 할 필요없이 일반적인 주장의 진실성을 종종 인식 할 수 있음을 시사합니다.

그러나 다양한 소스에서 여러 값을 섞어야하는 파생 숫자와 같은보다 까다로운 작업에 대해, 상황에서 다양한 사실을 찾고 평가하는 데 의존하는 증거를 수집 해야하는 경우, 이러한 모델은 완전히 무너졌습니다. 새로운 정보 나 실시간 조회 기능이 없으면 정확하거나 포괄적 인 답변을 만들 수있는 수단이 부족했습니다.

이 대비는 중요한 뉘앙스를 강조합니다. 오늘날의 LLM은“아는”많은 것을 시뮬레이션 할 수 있지만, 깊은 연구는 리콜뿐만 아니라 최신의 검증 가능한 정보를 가진 추론에 달려 있습니다.

최종 생각

DRB 보고서는 한 가지 분명한 점을 분명히합니다. 오늘날의 최고의 AI 요원은 좁게 정의 된 작업에 대해 평범한 인간을 능가 할 수 있지만, 특히 숙련 된 일반 연구원, 특히 전략적으로 계획하고 중간 프로세스를 조정하고 뉘앙스로 추론 할 때 여전히 지연됩니다.

이 차이는 길거나 복잡한 세션 중에 특히 명백 해집니다. 이는 에이전트가 점차적으로 작업의 목적을 추적하여 일관성과 유틸리티의 실망스러운 고장을 초래하는 직접 경험했습니다.

무엇을 만드는 것 깊은 연구 벤치 너무 귀중한 것은 표면 수준의 지식을 테스트하는 것이 아니라, 도구 사용, 메모리, 추론 및 적응의 교차점을 조사하여 MMLU 또는 GSM8K와 같은 벤치 마크보다 실제 연구와 더 밀접한 아날로그를 제공합니다.

LLM이 계속 심각한 지식 작업에 통합함에 따라 선물 검색 DRB와 같은 도구는 이러한 시스템이 알고있는 것뿐만 아니라 실제로 얼마나 잘 작동하는지 평가하는 데 필수적입니다.

게시물 실제 연구에서 AI 요원은 얼마나 좋은가요? 깊은 연구 벤치 보고서 내부 먼저 나타났습니다 Unite.ai.