언어 모델이 대화에서 ‘잃어버린’이유

5월 13, 2025

Microsoft Research and Salesforce의 새로운 논문은 가장 유능한 큰 언어 모델 (LLMS) 지침이 제공되면 분리됩니다 단계에서 한 번에 모든 것이 아니라. 저자는 프롬프트가있을 때 성능이 6 개의 작업에서 평균 39 % 감소한 것을 발견했습니다. 여러 회전으로 분할됩니다:

단일 회전 대화 (왼쪽)는 최상의 결과를 얻습니다. 다중 회전 대화 (오른쪽)는 대화에서 효과적인 자극을 잃는 가장 높은 순위와 가장 성능있는 LLM조차도 발견합니다. 출처 : https://arxiv.org/pdf/2505.06120

단일 회전 대화 (왼쪽)는 최상의 결과를 얻지 만 최종 사용자에게는 부자연 스럽습니다. 다중 회전 대화 (오른쪽)는 대화에서 효과적인 자극을 잃는 가장 높은 순위와 가장 성능있는 LLM조차도 발견합니다. 출처 : https://arxiv.org/pdf/2505.06120

더 놀랍게도 신뢰할 수 있음 반응의 반응은 콧 구멍을 취하고 : chatgpt-4.1 그리고 Gemini 2.5 Pro 동일한 작업이 어떻게 표현되는지에 따라 거의 완벽한 답변과 명백한 실패 사이의 스윙; 또한, 출력 일관성은 프로세스에서 절반 이상 떨어질 수 있습니다.

이 행동을 탐구하기 위해이 논문은 샤딩*완전히 지정된 프롬프트를 작은 조각으로 나누고 한 번에 하나씩 대화를 나눕니다.

가장 기본적인 용어로, 이것은 식당에서 응집력 있고 포괄적 인 단일 주문을 제공하는 것과 같습니다. 웨이터는 할 일이 없지만 요청을 인정합니다. 또는 그렇지 않으면 문제를 공동으로 공격하기로 결정합니다.

식당 대화의 두 가지 극단 버전 (예시적인 목적으로 만 새 논문이 아님).

강조하기 위해 위의 예는 아마도 고객을 부정적인 시각으로 만듭니다. 그러나 두 번째 열에 묘사 된 핵심 아이디어는 문제를 해결하기 전에 문제 세트를 명확하게하는 트랜잭션 교환의 아이디어입니다. 즉, 작업에 접근하는 합리적이고 합리적인 방법입니다.

이 설정은 새로운 작업의 드립 핑에 반영됩니다. 샤드 LLM 상호 작용에 대한 접근. 저자는 LLM이 종종 지나치게 긴 응답을 생성 한 다음 자신의 통찰력에 계속 의존한다고 지적합니다. 이러한 통찰력이 부정확하거나 관련이없는 것으로 나타났습니다.. 다른 요인들과 결합 된 이러한 경향은 시스템이 교환을 완전히 잃게 만들 수 있습니다.

사실, 연구원들은 우리 중 많은 사람들이 무엇을 주목합니다 일화 적으로 발견되었습니다 – 대화를 다시 시작하는 가장 좋은 방법은 LLM과 새로운 대화를 시작하는 것입니다.

‘LLM과의 대화가 예상 결과로 이어지지 않으면 동일한 정보를 반복하는 새로운 대화를 시작하면 진행중인 대화를 계속하는 것보다 훨씬 더 나은 결과를 얻을 수 있습니다.

‘이것은 현재 LLM이 대화에서 길을 잃을 수 있기 때문에, 우리의 실험에 따르면 모델과의 대화에서 지속되는 것이 효과가 없다는 것을 보여줍니다. 또한 LLM은 무작위로 텍스트를 생성하기 때문에 새로운 대화가 결과를 향상시킬 수 있습니다. ‘

저자는 다음과 같은 에이전트 시스템을 인정합니다 자율성 또는 랭케인 최종 사용자와 LLM 사이의 해석 적 층으로 작용함으로써 결과를 잠재적으로 개선 할 수 있으며, 단일 응집력 쿼리로 응고하기위한 ‘샤드’응답을 충분히 수집했을 때 LLM과 의사 소통 할 수 있습니다 (최종 사용자가 노출되지 않을 것입니다).

그러나 저자는 별도의 추상화 층이 필요하지 않거나 소스 LLM에 직접 구축되어야한다고 주장합니다.

‘다중 회전 기능은 에이전트 프레임 워크에 오프로드 될 수 있기 때문에 LLM의 필수 기능이 아니라고 주장 할 수 있습니다. 다시 말해, 에이전트 프레임 워크가 사용자와의 상호 작용을 조정하고 단일 회전 연산자로만 LLM을 활용할 수있을 때 LLMS에서 기본 다중 전환 지원이 필요합니까?… ‘

그러나 그들의 예제에 대한 제안을 테스트 한 후, 그들은 다음과 같이 결론을 내린다.

‘[Relying] 정보를 처리하기위한 에이전트와 같은 프레임 워크에서는 제한적 일 수 있으며, LLM은 기본적으로 다중 전환 상호 작용을 지원해야한다고 주장합니다. ‘

이 흥미로운 새로운 종이 제목이 있습니다 LLM은 다중 회전 대화에서 길을 잃습니다MS Research and Salesforce의 4 명의 연구원에서 나왔습니다.

단편화 된 대화

새로운 방법은 먼저 기존의 단일 회전 명령어를 작은 파편으로 분류합니다. LLM 상호 작용 중에 주요 순간에 소개되도록 설계되었습니다.이 구조는 ChatGpt 또는 Google Gemini와 같은 시스템에서 볼 수있는 탐색 적, 앞뒤 스타일의 참여를 반영합니다.

각 원본 명령은 한 번에 전체 작업을 한 번에 전달하여 높은 수준의 질문, 지원 컨텍스트 및 관련 조건을 결합한 단일 자체 포함 프롬프트입니다. 샤드 버전은 이것을 여러 개의 작은 부분으로 나누고 각 샤드는 하나의 정보 만 추가합니다.

(a) 단일 회전으로 전달 된 완전한 프롬프트와 (b) 헛된 다중 회전 상호 작용을 시뮬레이션하는 데 사용되는 샤드 버전을 보여주는 쌍을 이루는 지침. 의미 적으로, 각 버전은 동일한 정보 보료를 제공합니다.

첫 번째 샤드는 항상 작업의 주요 목표를 소개하는 반면 나머지는 명확한 세부 사항을 제공합니다. 함께, 그들은 원래 프롬프트와 동일한 내용을 전달하지만 대화에서 여러 차례에 걸쳐 자연스럽게 퍼집니다.

각 시뮬레이션 된 대화는 세 가지 구성 요소 사이에 전개됩니다 어시스턴트, 평가중인 모델; 그만큼 사용자, 샤드 형태의 전체 명령에 액세스 할 수있는 시뮬레이션 에이전트; 그리고 체계이는 교환을 활성화하고 점수를 매 깁니다.

대화는 사용자가 첫 번째 샤드를 공개하고 조수가 자유롭게 답장하는 것으로 시작합니다. 그런 다음 시스템은 해당 응답을 다음과 같은 여러 범주 중 하나로 분류합니다. 설명 요청 또는 a 완전한 답변.

모델 인 경우 하다 답을 시도하면 별도의 구성 요소가 주변 텍스트를 무시하고 평가를위한 관련 범위 만 추출합니다. 새로운 차례마다 사용자는 하나의 추가 샤드를 공개하여 다른 응답을 유발합니다. 교환은 모델이 답변을 받거나 공개 할 파편이 없을 때까지 계속됩니다.

평가 된 대화 시뮬레이션의 다이어그램, 평가 된 모델이 빨간색으로 강조 표시되어 있습니다.

초기 테스트에 따르면 모델은 종종 아직 공유되지 않은 정보에 대한 질문을 했으므로 저자는 고정 된 순서로 파편을 공개한다는 아이디어를 떨어 뜨 렸습니다. 대신, 시뮬레이터는 대화가 어떻게 진행되고 있는지에 따라 다음에 어떤 파편을 공개할지 결정하는 데 사용되었습니다.

따라서 GPT-4O-MINI를 사용하여 구현 된 사용자 시뮬레이터는 전체 명령과 대화 내용에 대한 전체 액세스 권한을 부여 받았으며, 각 턴마다 결정을 내렸다.

사용자 시뮬레이터도 있습니다 다시 게시 의미를 변경하지 않고 대화 흐름을 유지하기위한 각 샤드. 이를 통해 시뮬레이션은 작업 구조에 대한 제어를 보존하면서 실제 대화의 ‘주고받는’을 반영 할 수있었습니다.

대화가 시작되기 전에 어시스턴트는 데이터베이스 스키마 또는 API 참조와 같은 작업을 완료하는 데 필요한 기본 정보 만 제공됩니다. 지침이 분해 될 것이라고 말하지 않으며 대화를 처리하는 특정한 방법으로 안내되지 않습니다. 실제 사용에서는 모델이 시간이 지남에 따라 프롬프트가 불완전하거나 업데이트 될 것이라고 거의 말하지 않으며,이 컨텍스트를 남기면 시뮬레이션이 모델이보다 현실적인 맥락에서 어떻게 행동하는지 반영하는 데 도움이됩니다.

GPT-4O-MINI는 모델의 답변을 어떻게 분류 해야하는지 결정하고 해당 답변에서 최종 답변을 철회하는 데 사용되었습니다. 이것은 시뮬레이션이 유연하게 유지되는 데 도움이되었지만 가끔 실수를 저지른 경우가 있습니다. 그러나 수백 개의 대화를 손으로 확인한 후, 저자는 5 % 미만이 문제가 있었으며 2 % 미만이 결과의 변화를 보여 주었고 프로젝트 매개 변수 내에서 충분한 오류율이 낮은 것으로 간주했습니다.

시뮬레이션 시나리오

저자는 다양한 조건에서 모델 동작을 테스트하기 위해 5 가지 유형의 시뮬레이션을 사용했으며, 각각의 명령의 일부가 공개되는 방법과시기에 대한 변형.

에서 가득한 설정, 모델은 전체 명령을 단일 턴으로 수신합니다. 이는 표준 벤치 마크 형식을 나타내며 성능 기준으로 사용됩니다.

그만큼 샤드 설정은 명령을 여러 조각으로 나누고 한 번에 하나씩 하나씩 전달하여보다 현실적이고 지정된 대화를 시뮬레이션합니다. 이것은 모델이 다중 회전 입력을 얼마나 잘 처리하는지 테스트하는 데 사용되는 주요 설정입니다.

에서 콘서트 설정, 파편은 단일 목록으로 다시 꿰매어 문구를 보존하지만 전환 구조를 제거합니다. 이를 통해 대화 조각화의 영향을 다시 제어 또는 내용 손실로 분리하는 데 도움이됩니다.

그만큼 요약 설정은처럼 실행됩니다 샤드그러나 모델이 최종 답변을 제공하기 전에 모든 이전 샤드가 재조정되는 마지막 턴을 추가합니다. 이는 요약 프롬프트가 손실 컨텍스트를 복구하는 데 도움이 될 수 있는지 여부를 테스트합니다.

마지막으로, 스노볼 반복하여 더 나아갑니다 매 턴마다 모든 이전 파편대화가 전개 될 때 전체 지침을 보이고 다중 회전 능력에 대한보다 용서하는 테스트를 제공합니다.

샤드 지침을 기반으로 한 시뮬레이션 유형. 완전 지정 프롬프트는 작은 부품으로 분할되어 정보가 얼마나 빨리 공개되는지에 따라 단일 회전 (전체, 동의) 또는 멀티 턴 (Sharded, Recap, Snowball) 대화를 시뮬레이션하는 데 사용할 수 있습니다.

작업 및 메트릭

6 세대 작업이 프로그래밍과 자연어 영역을 모두 다루기 위해 선택되었습니다. 코드 생성 프롬프트는 Humaneval 그리고 livecodebench; Text-to-SQL 쿼리는 출시되었습니다 거미; API 호출은 The의 데이터를 사용하여 구성되었습니다 버클리 기능 호출 리더 보드; 초등학교 수학 문제가 제공되었습니다 GSM8K; 표 캡션 작업은 기반입니다 토토; 그리고 다중 문서 요약은 건초 더미 요약 데이터 세트.

모델 성능은 세 가지 핵심 메트릭을 사용하여 측정되었습니다. 평균 성능,,, 적성그리고 신뢰성.

평균 성능 여러 시도에서 모델이 전반적으로 얼마나 잘 수행했는지 포착했습니다. 적성 최상의 결과를 반영하여 최상위 점수 출력을 기반으로 모델이 도달 할 수있는 최상의 결과를 반영합니다. 그리고 신뢰성 최상의 결과와 최악의 결과 사이의 간격이 덜 안정적인 행동을 나타내는 결과가 얼마나 다른지 측정했습니다.

모든 점수는 0-100 스케일로 배치되어 작업에 대한 일관성을 보장하고 E에 대해 계산 된 메트릭 ACH 교육 – 그리고 평균화 된 모델 성능의 전반적인 그림을 제공합니다.

실험에 사용 된 6 개의 샤드 작업이 프로그래밍 및 자연어 생성을 모두 다룹니다. 각 작업에는 완전히 지정된 명령과 샤드 버전이 표시됩니다. 각 작업에 대한 확립 된 벤치 마크에서 90 ~ 120 개의 지침이 적용되었습니다.

경쟁자 및 테스트

초기 시뮬레이션 (예상 비용 $ 5000)에서 6 개의 작업에 걸친 600 개의 지침이 세 가지 대화 유형을 시뮬레이션하는 데 사용되었습니다. 가득한,,, 콘서트그리고 샤드. 모델, 명령 및 시뮬레이션 유형의 각 조합에 대해 10 개의 대화가 실행되어 총 20 만 개가 넘는 시뮬레이션을 생성했습니다. 이는 전반적인 성능과 더 깊은 적성 및 신뢰성 측정을 캡처 할 수있는 스키마입니다.

광범위한 공급 업체 및 아키텍처에 걸친 15 개의 모델이 테스트되었습니다. GPT-4O (버전 2024-11-20), GPT-4O- 미니 (2024-07-18), GPT-4.1 (2025-04-14) 및 사고 모델 O3 (2025-04-16).

인위적인 모델이었다 클로드 3 하이쿠 (2024-03-07) 및 클로드 3.7 소네트 (2025-02-19), Amazon Bedrock을 통해 액세스.

Google이 기여했습니다 Gemini 2.5 플래시 (미리보기 -04-17) 및 Gemini 2.5 Pro (미리보기 -03-25). 메타 모델이었다 LLAMA 3.1-8B 비율 그리고 LLAMA 3.3-70B-비 구조게다가 라마 4 스카우트 -17B-16E함께 ai.

다른 항목은있었습니다 Olmo 2 13B,,, PHI-4그리고 명령 -A모두 Ollama 또는 Cohere API를 통해 로컬로 접근; 그리고 Deepseek-R1Amazon Bedrock을 통해 액세스했습니다.

둘을 위해 ‘생각’ 모델 (O3 및 R1), 토큰 제한 더 긴 추론 사슬을 수용하기 위해 10,000으로 올라갔습니다.

코드, 데이터베이스, 동작, 데이터-텍스트, 수학 및 요약의 6 가지 작업에서 각 모델의 평균 성능 점수. 세 가지 시뮬레이션 유형의 결과가 표시됩니다 : Full, Concat 및 Sharded. 모델은 평균적인 풀 설정 점수로 주문됩니다. 음영은 전체 설정에서 성능 감소 정도를 반영하며, 최종 두 열은 평균 감소를보고하고 전체에 대한 샤드를보고합니다.

이러한 결과와 관련하여 저자는 말합니다^†:

‘높은 수준에서 모든 모델은 전체 및 샤드 성능을 비교할 때 모든 작업에서 성능 저하가 발생합니다.평균 분해는 -39%입니다. 우리는이 현상의 이름을 지정합니다 대화에서 길을 잃었습니다: 완전히 지정된 단일 회전 대화의 실험실과 같은 설정에서 스텔라 (90%+) 성능을 달성하는 모델 똑같은 작업에서 대화가 끊임없이 지정되고 멀티 턴 될 때보다 현실적인 환경에서. ‘

콘서트 점수는 평균 95 %입니다 가득한Sharded 설정의 성능 감소는 정보 손실로 설명 할 수 없음을 나타냅니다. LLAMA3.1-8B- 강조, OLMO-2-13B 및 Claude 3 Haiku와 같은 소규모 모델은 콘서트소규모 모델은 일반적으로 큰 모델보다 리프레이션에 덜 강력하다는 것을 제안합니다.

저자는 관찰합니다^†:

‘놀랍게도, 보다 성능이 뛰어난 모델 (Claude 3.7 Sonnet, Gemini 2.5, GPT-4.1)은 작은 모델 (LLAMA3.1-8B- 강조, PHI-4), 평균 저하는 30-40%입니다. 이것은 부분적으로 메트릭 정의 때문입니다. 소규모 모델은 절대 점수가 낮습니다 가득한그들은 더 나은 모델보다 저하의 범위가 적습니다.

요컨대, LLM의 단일 회전 성능이 아무리 강력하더라도 멀티 턴 설정에서 큰 성능 저하를 관찰합니다. ‘

초기 테스트는 일부 모델이 특정 작업에서 더 잘 유지되었음을 나타냅니다 : Command-A, Claude 3.7 Sonnet 및 Code의 GPT-4.1; 데이터-텍스트의 Gemini 2.5 Pro는 다중 회전 능력이 도메인에 따라 다르다는 것을 나타냅니다. O3 및 DeepSeek-R1과 같은 추론 모델은 전반적으로 더 나아지지 않았다.

신뢰할 수 있음

단일 회전 시뮬레이션에서 명확한 적성과 신뢰성의 관계는 다중 회전 조건에서 분리되는 것으로 보였다. 적성은 겸손하게 감소했지만 신뢰할 수 있습니다 두 배 평균적으로. GPT-4.1 및 Gemini 2.5 Pro와 같은 전체 형식의 프롬프트에서 안정된 모델은 명령이 단편화되면 LLAMA3.1-8B- 강조 또는 OLMO-2-13B와 같은 약한 모델만큼 불규칙 해졌습니다.

상자 플롯 (a)에 표시된 적성 및 신뢰성에 대한 개요, 15 개 모델 (b)을 사용한 실험의 신뢰성 결과, 지침이 1 ~ 8 개의 공주 (c)로 분할 된 점진적인 샤드 테스트 결과.

모델 응답은 종종 새로운 것이 추가되지 않은 경우에도 동일한 작업에서 50 점만큼 다양하여 성능 감소는 기술 부족으로 인한 것이 아니라 모델이 턴에서 점점 더 불안 해지는 것을 시사합니다.

종이는 말합니다^†:

‘[Though] 더 나은 모델은 다중 회전 적성이 약간 더 높은 경향이 있으며, 모든 모델은 비슷한 수준의 신뢰성을 갖는 경향이 있습니다. 다시 말해서, 다중 회전, 끊임없는 설정에서 우리가 테스트하는 모든 모델은 매우 신뢰할 수 없으며, 성능은 고정 명령을 위해 최고와 최악의 시뮬레이션 실행 사이에 평균 50 % 점수가 저하됩니다.. ‘

성능 저하가 회전 수에 묶여 있는지 여부를 테스트하기 위해 저자는 점진적인 샤드 실험을 실행하여 각 명령어를 1 ~ 8 개의 파편으로 나누었습니다 (위의 이미지의 오른쪽 열면 참조).

파편의 수가 증가함에 따라 신뢰성이 꾸준히 상승하여 약간의 차례로 증가하더라도 모델이 더 불안정하게 만들었습니다.. 적성은 대부분 변하지 않고 문제가있는 것을 강화했습니다. 일관성기능이 아닙니다.

온도 제어

별도의 실험 세트는 신뢰성이 단순히 무작위성의 부산물인지 여부를 테스트했습니다. 이를 위해 저자는 어시스턴트와 사용자 시뮬레이터의 온도 설정을 세 가지 값의 1.0, 0.5 및 0.0으로 다양하게했습니다.

단일 회전 형식과 같은 형식으로 가득한 그리고 콘서트조수의 온도를 줄이는 것은 신뢰성을 크게 향상시켜 80 %까지 변화를 줄였습니다. 그러나 샤드 설정, 동일한 개입은 거의 영향을 미치지 않았습니다.

신뢰할 수는 보조 및 사용자 온도의 다양한 조합에 대한 점수, 전체, 컨덕트 및 샤드 설정을 통해 응답 일관성이 높을수록 값이 낮습니다.

어시스턴트와 사용자가 온도가 0으로 설정되어 있더라도 신뢰할 수있는 것은 높은 상태로 유지되었으며 GPT-4O는 약 30 %의 변화를 보여줍니다. 확률 적 소음그러나 모델이 단편화 된 입력을 처리하는 방법의 구조적 약점.

의미

저자는 논문의 결론에 따라 특이한 길이로 발견 된 결과에 대한 영향을 썼다.

그들은 또한 신뢰성이 샘플링 아티팩트가 아니라 기본 제한 현재 모델이 진화하는 입력을 처리하는 방식에서, 이는 턴 전반에 걸친 지속적인 추론에 의존하는 에이전트 프레임 워크에 대한 우려를 제기한다고 제안합니다.

마지막으로, 그들은 다중 회전 능력이 외부 시스템에 오프로드 된 것이 아니라 LLM의 핵심 기능으로 취급되어야한다고 주장합니다.

저자는 그들의 결과가 가능성이 높다고 지적했다 싼 견적 문제의 진정한 규모와 테스트의 이상적인 조건에주의를 기울입니다. 설정의 사용자 시뮬레이터는 명령에 완전히 액세스 할 수 있었고 최적의 순서로 파편을 드러 낼 수 있었으며, 이로 인해 비현실적으로 유리한 상황을 제공하여 (실제 사용에서는 종종 모델이 다음에들을 필요가없는 경우 조각난 또는 모호한 프롬프트를 제공합니다).

또한 조수를 평가했습니다 즉시 각 턴 후, 전체 대화가 전개되기 전에 나중에 혼란이나 자제력이 처벌되는 것을 방지하여 성능을 악화시킬 수 있습니다. 이러한 선택은 실험 제어에 필요하지만 실제로 관찰 된 신뢰성 격차가보고 된 것보다 훨씬 클 수 있음을 의미합니다.

결론 :

‘[We] 수행 된 시뮬레이션은 LLM 다중 회전 기능에 대한 양성 테스트 접지를 나타냅니다. 과도하게 단순화 된 시뮬레이션 조건으로 인해 실험에서 관찰 된 저하는 LLM의 신뢰성을 과소 평가하고 실제 환경에서 대화에서 LLM이 얼마나 자주 손실되는지에 대한 것 같습니다.‘

결론

LLM과 함께 상당한 시간을 보낸 사람은 실제 경험에서 여기에 공식화 된 문제를 인식 할 것입니다. 그리고 우리 대부분은 LLM이 ‘시작’을 시작하고 길고 와인딩하고 점점 더 화를내는 교환에서 등장한 자료에 대해 집착하기를 멈출 수 있기를 희망하면서 신선한 사람들을위한 ‘잃어버린’LLM 대화를 직관적으로 버렸다고 생각합니다.

문제에 더 많은 맥락을 던지는 것이 반드시 그것을 해결할 필요는 없다는 점에 주목하는 것은 흥미 롭습니다. 그리고 실제로, 논문이 답변을 제공하는 것보다 더 많은 질문을 제기한다는 것을 관찰하기 위해 (문제를 건너 뛰는 방법을 제외하고).

* 혼란스럽게도 이것은 관련이 없습니다 AI에서 ‘샤딩’의 기존의 의미.

† 저자 자신의 대담한 강조.

2025 년 5 월 12 일 월요일에 처음 출판되었습니다

게시물 언어 모델이 대화에서 ‘잃어버린’이유 먼저 나타났습니다 Unite.ai.

News Week
Magazine PRO

Company

언어 모델이 대화에서 ‘잃어버린’이유

단편화 된 대화

시뮬레이션 시나리오

작업 및 메트릭