에이 새로운 연구 LMU 뮌헨의 연구원, 뮌헨 머신 러닝 센터 및 Adobe Research는 약점을 노출 시켰습니다. AI 언어 모델: 그들은 당신을 놀라게 할 수있는 방식으로 긴 문서를 이해하기 위해 고군분투합니다. 연구팀의 연구 결과에 따르면 가장 진보 된 AI 모델조차도 간단한 단어 일치에 의존 할 수없는 경우 정보를 연결하는 데 어려움이 있습니다.
AI의 독해 기술에 숨겨진 문제
긴 연구 논문에서 구체적인 세부 사항을 찾으려고하는 그림. 당신은 그것을 통해 훑어 보면서 다른 섹션들 사이의 정신적 연결을 만들어 필요한 정보를 함께 하나로 구성 할 수 있습니다. 많은 AI 모델은 이런 식으로 전혀 작동하지 않습니다. 대신, 그들은 종종 컴퓨터에서 ctrl+f를 사용하는 것과 유사한 정확한 단어 일치를 찾는 데 크게 의존합니다.
연구팀은 다양한 AI 모델을 테스트하기 위해 Nolima (문자 매칭 없음)라는 새로운 벤치 마크를 개발했습니다. 결과는 AI 모델이 2,000 단어보다 긴 텍스트를 다룰 때 성능이 크게 떨어질 수 있음을 보여주었습니다. 짧은 책의 길이에 대해 32,000 단어에 도달 할 때 대부분의 모델은 일반적인 기능의 절반에서 수행합니다. 여기에는 주요 모델 테스트가 포함되었습니다 GPT-4O,,, Gemini 1.5 Pro및 라마 3.3 70b.
AI를 사용하여 환자 기록을 분석하거나 AI를 사용하여 사례 문서를 검토하는 의료 연구원을 고려하십시오. 관련 정보가 검색 쿼리와 다른 단어를 사용하기 때문에 AI가 중요한 연결을 놓치면 결과가 중요 할 수 있습니다.
단어 일치하는 것이 충분하지 않은 이유
현재 AI 모델은주의 메커니즘이라는 것을 사용하여 텍스트를 처리합니다. 이 시스템은 AI가 텍스트의 다른 부분에 집중하여 단어와 아이디어 사이의 관계를 이해하도록 도와줍니다. 짧은 텍스트로 작업 할 때는 충분히 작동합니다. 그러나 연구에 따르면이 메커니즘은 텍스트가 더 길어질수록 압도 당하며, 특히 정확한 단어 일치에 의존 할 수없는 경우.
Nolima 테스트는 AI 모델에 대한 질문을하여 일치하는 단어를 찾는 대신 상황을 이해해야하는 경우 AI 모델 질문을함으로써 이러한 제한을 밝혀 냈습니다. 결과가 말하고있었습니다. 짧은 텍스트로 모델이 잘 수행되는 동안 텍스트 길이가 증가함에 따라 이러한 연결 기능이 크게 떨어졌습니다. 추론 작업을 위해 설계된 특수 모델조차도 더 긴 문서를 다룰 때 50% 미만의 정확도를 기록했습니다.
단어의 목발이 일치하지 않으면 AI 모델은 다음과 같이 고군분투했습니다.
- 다른 용어를 사용하는 관련 개념을 연결하십시오
- 다단계 추론 경로를 따르십시오
- 주요 컨텍스트 이후에 나타날 때 관련 정보 찾기
- 관련없는 섹션에서 오해의 소지가있는 단어 경기를 무시하십시오
숫자는 이야기를합니다
연구 결과는 AI 모델이 더 긴 텍스트를 처리하는 방법에 대한 뚜렷한 그림을 그립니다. GPT-4O는 최대 약 8,000 개의 토큰 (약 6,000 단어)의 효과를 유지하면서 가장 강력한 성능을 보여주었습니다. 그러나이 최고 성능조차도 더 긴 텍스트로 크게 감소했습니다. Gemini 1.5 Pro 및 Llama 3.3 70B를 포함한 대부분의 다른 모델은 2,000 ~ 8,000 개의 토큰 사이의 급격한 성능 감소를 경험했습니다.
작업에 여러 단계의 추론이 필요할 때 성과 감소가 더욱 두드러졌습니다. 예를 들어, 캐릭터가 랜드 마크 근처에 살았다는 것을 이해하고 그 랜드 마크가 특정 도시에 있다는 것을 이해하는 것과 같은 두 가지 논리적 연결을 만들어야한다면 성공률은 상당히 떨어졌습니다. 이 연구에 따르면 이러한 유형의 다단계 추론은 16,000 개의 토큰 이외의 텍스트에서 특히 도전적이되었으며, 예 : 추론을 개선하기 위해 설계된 기술을 사용하더라도 생각의 사슬 프롬프트.
이러한 발견이 특히 주목할만한 것은 AI 모델의 긴 상황을 처리하는 능력에 대한 주장에 도전한다는 것입니다. 많은 모델이 광범위한 컨텍스트 창에 대한 지원을 광고하지만 Nolima 벤치 마크는 이러한 이론적 한계에 도달하기 전에 효과적인 이해가 잘 떨어져 있음을 보여줍니다.
출처 : Modarressi et al.
AI가 나무의 숲을 놓칠 때
이러한 한계는 실제 응용 프로그램에서 AI를 사용하는 방법에 심각한 영향을 미칩니다. 판례법을 통한 법적 AI 시스템을 고려하십시오. 검색 쿼리와 다른 용어를 사용하기 때문에 관련 선례를 놓칠 수 있습니다. 대신 시스템은 검색어와 더 많은 단어를 공유하는 덜 관련성있는 사례에 중점을 둘 수 있습니다.
검색 및 문서 분석에 미치는 영향은 특히 관련이 있습니다. 현재 AI 구동 검색 시스템은 종종 검색 세대 (rag). 이러한 시스템이 올바른 정보가 포함 된 문서를 성공적으로 검색하더라도 문구가 쿼리와 다른 경우 AI가 관련성을 인식하지 못할 수 있습니다. 대신 AI는 표면 수준의 유사성을 검색어와 공유하는 덜 관련성있는 문서에 끌릴 수 있습니다.
AI 사용자의 경우 이러한 결과는 몇 가지 중요한 고려 사항을 제안합니다.
첫 번째짧은 쿼리와 문서는 더 안정적인 결과를 얻을 수 있습니다. 더 긴 텍스트로 작업 할 때는 더 작고 집중된 세그먼트로 나누면 AI 성능을 유지하는 데 도움이 될 수 있습니다.
두번째AI에게 긴 문서의 다른 부분에 연결하도록 요청할 때 사용자는 특히주의해야합니다. 이 연구에 따르면 AI 모델은 특히 공유 어휘를 통해 연결이 분명하지 않은 경우 다른 섹션에서 정보를 제공해야 할 때 가장 어려움을 겪고 있습니다.
마지막으로이러한 한계는 인간 감독의 지속적인 중요성을 강조합니다. AI는 텍스트를 처리하고 분석하기위한 강력한 도구가 될 수 있지만, 길거나 복잡한 문서에서 중요한 연결을 식별하는 유일한 수단으로 의존해서는 안됩니다.
이 결과는 AI 기술의 빠른 발전에도 불구하고 이러한 시스템은 여전히 인간과 매우 다르게 정보를 처리한다는 것을 상기시켜줍니다. 이러한 한계를 이해하는 것은 AI 도구를 효과적으로 사용하고 인간의 판단이 필수적 인시기를 아는 데 중요합니다.
다음에 오는 것
현재 AI 모델의 긴 텍스트 처리 능력의 한계를 이해하면 AI 개발의 미래에 대한 중요한 질문이 열립니다. Nolima 벤치 마크 뒤의 연구에 따르면 AI 텍스트 처리에 대한 현재의 접근 방식은 특히 모델이 더 긴 구절에서 정보를 처리하는 방법에서 상당한 개선이 필요할 수 있습니다.
현재 솔루션은 부분적인 성공 만 보여주었습니다. AI 모델이 추론을 단계적으로 분석하도록 장려하는 사슬의 프롬프트는 성능을 다소 향상시키는 데 도움이됩니다. 예를 들어,이 기술을 사용할 때 LLAMA 3.3 70B는 더 긴 상황을 처리하는 더 나은 능력을 보여주었습니다. 그러나이 접근법은 16,000 개의 토큰 이상의 텍스트를 다룰 때 여전히 부족하여보다 기본적인 솔루션이 필요하다는 것을 시사합니다.
현재 AI 모델이 텍스트를 처리하는 방법의 백본을 형성하는주의 메커니즘은 재고가 필요합니다. 혼잡 한 방에서 대화를하는 것처럼 생각하십시오. 대화가 길어질수록 앞에서 언급 한 모든 중요한 요점을 추적하기가 더 어려워집니다. 우리의 현재 AI 모델은 비슷한 도전에 직면하지만 훨씬 더 큰 규모입니다.
미래를 향해 연구원들은 몇 가지 유망한 방향을 탐구하고 있습니다. 한 가지 접근 방식은 AI가 긴 텍스트로 정보를 구성하고 우선 순위를 정하는 새로운 방법을 개발하는 것이 포함되며, 더 깊은 개념적 연결을 이해하기 위해 간단한 단어 매칭을 넘어서고 있습니다. 이것은 인간이 정신적 정보지도를 만드는 방법과 같이 더 잘 작동하고 공유 어휘가 아닌 의미에 따라 아이디어를 연결합니다.
또 다른 개발 영역은 AI 모델이 연구자들이 “잠재 홉”이라고 부르는 것을 처리하는 방법을 개선하는 데 중점을 둡니다. 이는 다양한 정보를 연결하는 데 필요한 논리적 단계입니다. 현재 모델은 이러한 연결, 특히 더 긴 텍스트에서 어려움을 겪지 만 새로운 아키텍처는 이러한 격차를 해소하는 데 도움이 될 수 있습니다.
오늘날 AI 도구를 사용하는 사람들을 위해 이러한 결과는 몇 가지 실질적인 접근법을 제안합니다.
AI와 함께 작업 할 때 더 긴 문서를 의미있는 세그먼트로 나누는 것을 고려하십시오. 이것은 중요한 맥락을 보존하는 논리적 섹션을 만드는 데 도움이됩니다. 예를 들어, 연구 논문을 분석하는 경우 방법론과 결과 섹션이 종종 관련 정보가 포함되어 있으므로 함께 유지할 수 있습니다.
AI에게 더 긴 텍스트를 분석하도록 요청할 때 원하는 연결에 대해 구체적으로 설명하십시오. 광범위한 질문을하는 대신 AI를 탐색하고자하는 특정 관계를 향해 안내하십시오. 이를 통해 이러한 연결을 독립적으로 만드는 모델의 현재 제한 사항을 보상하는 데 도움이됩니다.
아마도 가장 중요한 것은 긴 텍스트로 AI의 능력에 대한 현실적인 기대를 유지하는 것입니다. 이러한 도구는 많은 작업에 매우 도움이 될 수 있지만 복잡한 문서의 인간 분석을위한 완전한 대체물로 취급해서는 안됩니다. 긴 텍스트에서 상황을 유지하고 개념적 연결을 만들 수있는 인간의 능력은 현재 AI 기능보다 우수합니다.
이 분야의 AI 개발을위한 길은 도전적이고 흥미 롭습니다. 이러한 한계를 더 잘 이해할 수 있으므로, 우리는 단순히 처리하는 것보다 긴 텍스트를 진정으로 이해하는 AI 시스템을 향해 노력할 수 있습니다. 그때까지 AI를 사용한다는 것은 효과적으로 강점을 이해하면서 현재 한계를 사용하는 것을 의미합니다.
게시물 긴 문서에서 최고의 AI 모델이 손실되고 있습니다 먼저 나타났습니다 Unite.ai.