처럼 인공지능(AI) 계속 발전함에 따라 긴 정보 시퀀스를 처리하고 이해하는 능력이 더욱 중요해지고 있습니다. 이제 AI 시스템은 긴 문서 분석, 확장된 대화 진행, 대량 데이터 처리 등 복잡한 작업에 사용됩니다. 그러나 현재의 많은 모델은 긴 맥락 추론에 어려움을 겪고 있습니다. 입력 시간이 길어질수록 중요한 세부 정보를 놓치는 경우가 많아 결과의 정확성이나 일관성이 떨어집니다.
이 문제는 AI 도구가 정확한 상황 인식 응답을 제공하면서 자세한 문서나 긴 토론을 처리해야 하는 의료, 법률 서비스 및 금융 산업에서 특히 문제가 됩니다. 일반적인 과제는 상황입니다. 경향모델이 새로운 입력을 처리하면서 이전 정보를 놓치게 되어 관련성이 떨어지는 결과가 발생합니다.
이러한 한계를 해결하기 위해 DeepMind는 다음을 개발했습니다. 미켈란젤로 벤치마크. 이 도구는 AI 모델이 얼마나 잘 관리하는지 엄격하게 테스트합니다. 긴 맥락 추론. 대리석 블록의 복잡한 조각품을 선보이는 것으로 유명한 예술가 미켈란젤로에게서 영감을 받은 이 벤치마크는 AI 모델이 대규모 데이터 세트에서 의미 있는 패턴을 얼마나 잘 추출할 수 있는지 알아내는 데 도움이 됩니다. 미켈란젤로 벤치마크는 현재 모델이 부족한 부분을 식별함으로써 장기적인 맥락에 대해 추론하는 AI의 능력을 향후 향상시킵니다.
AI의 장기 상황 추론 이해
긴 상황 추론은 긴 텍스트, 코드 또는 대화 시퀀스에 걸쳐 일관성과 정확성을 유지하는 AI 모델의 능력에 관한 것입니다. GPT-4 및 PaLM-2와 같은 모델은 짧거나 중간 길이의 입력에서 잘 작동합니다. 그러나 더 긴 상황에서는 도움이 필요합니다. 입력 길이가 늘어남에 따라 이러한 모델은 이전 부분의 필수 세부 정보를 추적하지 못하는 경우가 많습니다. 이로 인해 이해, 요약 또는 결정에 오류가 발생합니다. 이 문제를 컨텍스트 창 제한이라고 합니다. 정보를 유지하고 처리하는 모델의 능력은 컨텍스트가 길어질수록 감소합니다.
이 문제는 실제 응용 프로그램에서 중요합니다. 예를 들어 법률 서비스에서 AI 모델은 수백 페이지에 달하는 계약서, 사례 연구 또는 규정을 분석합니다. 이러한 모델이 긴 문서를 효과적으로 보관하고 추론할 수 없다면 필수 조항을 놓치거나 법률 용어를 잘못 해석할 수 있습니다. 이는 부정확한 조언이나 분석으로 이어질 수 있습니다. 의료 분야에서 AI 시스템은 수년 또는 수십 년에 걸친 환자 기록, 병력 및 치료 계획을 종합해야 합니다. 모델이 이전 기록에서 중요한 정보를 정확하게 기억할 수 없는 경우 부적절한 치료법을 권장하거나 환자를 오진할 수 있습니다.
모델의 토큰 한도를 개선하려는 노력이 있었지만(예: GPT-4 처리 토큰 32,000개약 50페이지의 텍스트), 긴 맥락 추론은 여전히 어려운 문제입니다. 컨텍스트 창 문제는 모델이 처리할 수 있는 입력의 양을 제한하고 전체 입력 시퀀스에 걸쳐 정확한 이해를 유지하는 능력에 영향을 미칩니다. 이로 인해 컨텍스트 드리프트가 발생하고 모델이 점차적으로 에프orgets 새로운 정보가 소개되면 자세한 내용을 확인하세요. 이로 인해 일관되고 관련성이 높은 출력을 생성하는 능력이 저하됩니다.
미켈란젤로 벤치마크: 개념 및 접근 방식
Michelangelo Benchmark는 확장된 시퀀스에 대한 정보를 유지하고 처리해야 하는 작업에 대해 LLM을 테스트하여 장기 컨텍스트 추론 문제를 해결합니다. 문장 완성이나 기본적인 질문 답변과 같은 짧은 맥락의 작업에 초점을 맞춘 이전 벤치마크와 달리 미켈란젤로 벤치마크는 모델이 주의를 산만하게 하거나 관련 없는 정보를 포함하여 긴 데이터 시퀀스에 걸쳐 추론하도록 하는 작업을 강조합니다.
Michelangelo Benchmark는 다음을 사용하여 AI 모델에 도전합니다. LSQ(Latent Structure Queries) 프레임워크. 이 방법을 사용하려면 모델이 대규모 데이터 세트에서 의미 있는 패턴을 찾는 동시에 관련 없는 정보를 필터링해야 합니다. 이는 인간이 중요한 것에 집중하기 위해 복잡한 데이터를 선별하는 방법과 유사합니다. 벤치마크는 자연어와 코드라는 두 가지 주요 영역에 중점을 두고 단순한 데이터 검색 이상의 테스트 작업을 소개합니다.
중요한 작업 중 하나는 잠재 목록 작업입니다. 이 작업에서 모델에는 요소 추가, 제거, 정렬과 같은 일련의 Python 목록 작업이 제공되며, 그런 다음 올바른 최종 목록을 생성해야 합니다. 작업을 더 어렵게 만들기 위해 목록을 뒤집거나 이전 단계를 취소하는 등 관련 없는 작업이 작업에 포함됩니다. 이는 중요한 작업에 집중하는 모델의 능력을 테스트하고 AI 시스템이 관련성이 혼합된 대규모 데이터 세트를 어떻게 처리해야 하는지 시뮬레이션합니다.
또 다른 중요한 작업은 MRCR(Multi-Round Co-reference Resolution)입니다. 이 작업은 모델이 주제가 겹치거나 불분명한 긴 대화에서 참조를 얼마나 잘 추적할 수 있는지 측정합니다. 문제는 해당 참조가 관련 없는 세부 사항에 숨겨져 있는 경우에도 모델이 대화 후반에 작성된 참조를 이전 지점에 연결하는 것입니다. 이 작업은 주제가 자주 바뀌는 실제 토론을 반영하며 AI는 일관된 의사소통을 유지하기 위해 참조를 정확하게 추적하고 해결해야 합니다.
또한 Michelangelo는 질문에 답변하기에 충분한 정보가 없는 경우를 인식하는 모델의 능력을 테스트하는 IDK 작업 기능을 제공합니다. 이 작업에서는 모델에 특정 쿼리에 답하기 위한 관련 정보가 포함되어 있지 않을 수 있는 텍스트가 제공됩니다. 문제는 모델이 올바른 응답이 다음과 같은 경우를 식별하는 것입니다.모르겠습니다” 그럴듯하지만 잘못된 답변을 제공하는 것보다. 이 작업은 불확실성을 인식하는 AI 신뢰성의 중요한 측면을 반영합니다.
이러한 작업을 통해 Michelangelo는 단순한 검색을 넘어 긴 컨텍스트 입력을 추론, 합성 및 관리하는 모델의 능력을 테스트합니다. 이는 장기 맥락 추론을 위한 확장 가능하고 종합적이며 유출되지 않는 벤치마크를 도입하여 LLM의 현재 상태와 미래 잠재력에 대한 보다 정확한 측정값을 제공합니다.
AI 연구 및 개발에 대한 시사점
미켈란젤로 벤치마크의 결과는 AI 개발 방법에 중요한 영향을 미칩니다. 벤치마크는 현재 LLM에 특히 더 나은 아키텍처가 필요하다는 것을 보여줍니다. 주의 메커니즘 그리고 메모리 시스템. 현재 대부분의 LLM은 self-attention 메커니즘에 의존합니다. 이는 짧은 작업에는 효과적이지만 컨텍스트가 커지면 어려움을 겪습니다. 여기서 모델이 이전 세부 정보를 잊어버리거나 혼동하는 상황 드리프트 문제가 발생합니다. 이를 해결하기 위해 연구자들은 기억 증강 모델을 탐색하고 있습니다. 이러한 모델은 대화나 문서의 이전 부분에서 얻은 중요한 정보를 저장할 수 있으므로 AI가 필요할 때 이를 기억하고 사용할 수 있습니다.
또 다른 유망한 접근 방식은 계층적 처리입니다. 이 방법을 사용하면 AI는 긴 입력을 더 작고 관리 가능한 부분으로 분할하여 각 단계에서 가장 관련성이 높은 세부 사항에 집중할 수 있습니다. 이렇게 하면 모델은 한 번에 너무 많은 정보에 압도당하지 않고 복잡한 작업을 더 잘 처리할 수 있습니다.
장기 맥락 추론을 개선하는 것은 상당한 영향을 미칠 것입니다. 의료 분야에서는 AI가 시간이 지남에 따라 환자의 병력을 추적하고 보다 정확한 치료 권장 사항을 제공할 수 있는 환자 기록에 대한 더 나은 분석을 의미할 수 있습니다. 법률 서비스에서 이러한 발전은 장기 계약이나 판례법을 더 정확하게 분석하여 변호사와 법률 전문가에게 보다 신뢰할 수 있는 통찰력을 제공할 수 있는 AI 시스템으로 이어질 수 있습니다.
그러나 이러한 발전으로 인해 심각한 윤리적 문제가 발생합니다. AI가 장기간의 맥락을 유지하고 추론하는 능력이 향상됨에 따라 민감하거나 개인적인 정보가 노출될 위험이 있습니다. 이는 기밀 유지가 중요한 의료 및 고객 서비스와 같은 산업에서 진정한 우려 사항입니다.
AI 모델이 이전 상호 작용에서 너무 많은 정보를 유지하면 향후 대화에서 실수로 개인 세부 정보가 공개될 수 있습니다. 또한 AI가 설득력 있는 장문 콘텐츠를 생성하는 능력이 향상됨에 따라 더욱 진보된 잘못된 정보나 허위 정보를 생성하는 데 사용될 위험이 있어 AI 규제와 관련된 문제가 더욱 복잡해집니다.
결론
미켈란젤로 벤치마크(Michelangelo Benchmark)는 AI 모델이 복잡하고 긴 상황에 맞는 작업을 관리하는 방법에 대한 통찰력을 밝혀 AI 모델의 강점과 한계를 강조했습니다. 이 벤치마크는 AI가 발전함에 따라 혁신을 발전시켜 더 나은 모델 아키텍처와 향상된 메모리 시스템을 장려합니다. 의료 및 법률 서비스와 같은 산업을 변화시킬 수 있는 잠재력은 흥미롭지만 윤리적 책임이 따릅니다.
AI가 방대한 양의 정보를 처리하는 데 더욱 능숙해짐에 따라 개인 정보 보호, 잘못된 정보 및 공정성 문제를 해결해야 합니다. AI의 성장은 사려 깊고 책임감 있게 사회에 혜택을 주는 데 초점을 맞춰야 합니다.
게시물 DeepMind의 Michelangelo 벤치마크: 장기 컨텍스트 LLM의 한계 공개 처음 등장한 Unite.AI.