대형 언어 모델 (LLMS) 신속하게 없어서는 안될 것입니다 인공 지능 (AI) 도구, 챗봇에서 응용 프로그램에 전원을 공급합니다. 콘텐츠 제작에서 코딩 지원에 이르기까지. 인상적인 기능에도 불구하고 사용자가 직면 한 일반적인 과제는 이러한 모델이 때때로 지시 사항의 일부를 건너 뛰는 것입니다. 이 건너 뛰기는 불완전하거나 부정확 한 출력으로 이어져 AI 시스템에 대한 혼란과 신뢰를 침식 할 수 있습니다. LLM이 지침을 건너 뛰는 이유 와이 문제를 해결하는 방법을 이해하는 것은 이러한 모델에 의존하는 사용자에게는 필수적입니다.
LLM이 지침을 건너 뛰는 이유는 무엇입니까?
LLM은 입력 텍스트를 일련의 토큰 시퀀스로 읽어 작동합니다. 토큰은 텍스트가 나뉘어지는 작은 조각입니다. 모델은 이러한 토큰을 처음부터 끝까지 처리합니다. 이는 입력 시작시 지침이 더 많은 관심을받는 경향이 있음을 의미합니다. 나중에 지시 사항은 초점이 적고 무시할 수 있습니다.
LLM은 주의력이 제한되어 있기 때문에 발생합니다. 메커니즘 모델은 응답을 생성 할 때 어떤 입력 부품이 필수인지 결정하는 데 사용됩니다. 입력이 짧으면주의가 잘 작동합니다. 그러나 입력이 길어 지거나 지침이 복잡해지면서주의가 줄어 듭니다. 이로 인해 나중에 초점이 약해져 건너칩니다.
또한 많은 지침은 한 번에 복잡성을 증가시킵니다. 지침이 겹치거나 갈등을 겪으면 모델이 혼란 스러울 수 있습니다. 그들은 모든 것에 대답하려고 시도 할 수 있지만 모호하거나 모순적인 반응을 일으 킵니다. 이로 인해 종종 일부 지침이 누락됩니다.
LLM은 또한 인간과 같은 한계를 공유합니다. 예를 들어, 인간은 길거나 반복적 인 텍스트를 읽을 때 집중력을 잃을 수 있습니다. 마찬가지로 LLMS도 할 수 있습니다 잊다 나중에 더 많은 토큰을 처리 할 때 지시 사항. 이러한 초점 손실은 모델의 설계 및 한계의 일부입니다.
또 다른 이유는 LLM이 어떻게 훈련되는지입니다. 그들은 간단한 지시의 많은 예를 보지만 복잡한 다중 단계의 예를 덜 볼 수 있습니다. 이 때문에 모델은 교육 데이터에서 더 일반적인 더 간단한 지침을 따르는 경향이 있습니다. 이 편견은 복잡한 지침을 건너 뜁니다. 또한 토큰 제한은 모델이 처리 할 수있는 입력량을 제한합니다. 입력이 이러한 한계를 초과하면 한계를 넘어서 지침이 무시됩니다.
예: 한 번의 프롬프트로 LLM에 5 개의 지침을 제공한다고 가정 해 봅시다. 이 모델은 주로 처음 두 가지 지침에 초점을 맞출 수 있으며 마지막 3 개를 부분적으로 또는 완전히 무시할 수 있습니다. 이것은 모델이 토큰을 순차적으로 처리하는 방법과주의 한계에 직접적인 영향을 미칩니다.
SIFO 2024 결과를 기반으로 LLMS가 순차 지침을 잘 관리하는 방법
최근의 연구는 LLM이 여러 지시를 얼마나 잘 따르는 지 신중하게 살펴 보았습니다. 중요한 연구 중 하나입니다 다음 순차 지침 (SIFO) 벤치 마크 2024.이 벤치 마크는 텍스트 수정, 질문 답변, 수학 및 보안 규칙을 따르는 것과 같은 지침의 단계별 완료가 필요한 작업에 대한 모델을 테스트합니다. 순서의 각 명령어는 이전의 명령을 올바른 완성에 달려 있습니다. 이 접근법은 모델이 전체 시퀀스를 올바르게 따랐는지 확인하는 데 도움이됩니다.
SIFO의 결과는 GPT-4 및 Claude-3과 같은 최고의 LLM조차도 모든 지침을 올바르게 완성하기가 어렵다는 것을 보여줍니다. 지침이 길거나 복잡 할 때 특히 그렇습니다. 이 연구는 LLM이 다음 지침으로 직면하는 세 가지 주요 문제를 지적합니다.
이해: 각 명령이 의미하는 바를 완전히 파악합니다.
추리: 응답을 명확하게 유지하기 위해 몇 가지 지침을 논리적으로 연결합니다.
신뢰할 수있는 출력 : 주어진 모든 지침을 다루는 완전하고 정확한 답변을 생성합니다.
다음과 같은 기술 프롬프트 엔지니어링 미세 조정은 모델이 지침을 따르는 방법을 개선하는 데 도움이됩니다. 그러나 이러한 방법이 지침을 건너 뛰는 문제에 완전히 도움이되지는 않습니다. 사용 인간 피드백을 통한 강화 학습 (RLHF) 모델이 적절하게 응답하는 능력을 더욱 향상시킵니다. 그럼에도 불구하고 지침에 많은 단계가 필요하거나 매우 복잡 할 때 모델이 어려움이 있습니다.
이 연구는 또한 LLM이 지침이 간단하고 명확하게 분리되고 잘 조직 될 때 가장 잘 작동한다는 것을 보여줍니다. 작업에 긴 추론 체인이나 여러 단계가 필요한 경우 모델 정확도가 떨어집니다. 이러한 결과는 LLM을 잘 사용하는 더 나은 방법을 제안하고 진정으로 지침을 따를 수있는 더 강력한 모델을 구축해야 할 필요성을 보여줍니다.
LLM이 지침을 건너 뛰는 이유 : 기술적 과제 및 실제 고려 사항
LLMS는 입력 텍스트를 처리하고 인코딩하는 방법에 근거한 몇 가지 기술적이고 실용적인 요소로 인해 지침을 건너 뛸 수 있습니다.
제한된주의 범위 및 정보 희석
LLM은 의존합니다 주의 메커니즘 다른 입력 부품에 중요성을 할당합니다. 프롬프트가 간결하면 모델의 관심이 집중되고 효과적입니다. 그러나 프롬프트가 더 길거나 반복적으로 증가함에 따라주의가 희석되고 나중에 토큰이나 지시가 초점이 적어 간과 될 가능성이 높아집니다. 정보 희석으로 알려진이 현상은 특히 프롬프트에 늦게 나타나는 지시에 특히 문제가됩니다. 또한 모델에 모델이 있습니다 수정 된 토큰 한도 (예 : 2048 토큰); 이 임계 값 이외의 모든 텍스트는 잘린 상태로 표시되고 무시되어 끝에 지침이 완전히 건너 뜁니다.
출력 복잡성과 모호성
LLM은 여러 가지 또는 상충되는 지침에 직면 할 때 명확하고 완전한 응답을 출력하는 데 어려움을 겪을 수 있습니다. 이 모델은 모순이나 혼란을 피하기 위해 부분적 또는 모호한 답변을 생성하여 일부 지침을 효과적으로 생략 할 수 있습니다. 지시 사항이 어떻게 표현되는지에 대한 모호성도 도전을 제기합니다. 불분명하거나 부정확 한 프롬프트는 모델이 의도 한 동작을 결정하기가 어렵게하여 입력의 일부를 건너 뛰거나 오해 해석 할 위험을 높입니다.
프롬프트 설계 및 서식 감도
프롬프트의 구조와 문구는 또한 지시를 따르는 데 중요한 역할을합니다. 연구에 따르면 지시 사항이 작성되거나 형식화되는 방식의 작은 변화조차도 모델이 그들을 준수하는지 여부에 관계없이 큰 영향을 줄 수 있습니다.
명확한 구조화 된 프롬프트, 명확한 분리, 총알 포인트 또는 번호가 부족하여 모델이 단계를 구별하기가 더 어려워 지침을 병합하거나 생략 할 가능성이 높아집니다. 이 모델의 프롬프트 내부 표현은 이러한 변형에 매우 민감합니다. 이는 프롬프트 엔지니어링 (재구성 또는 재구성 프롬프트)이 기본 컨텐츠가 동일하더라도 지시 준수를 실질적으로 향상시킬 수있는 이유를 설명합니다.
LLMS에서 수업 건너 뛰기를 수정하는 방법
신뢰할 수 있고 정확한 결과를 생성하려면 LLM의 지침을 정확하게 따르는 능력을 향상시키는 것이 필수적입니다. 교육 건너 뛰기를 최소화하고 AI 생성 응답의 품질을 향상시키기 위해 다음 모범 사례를 고려해야합니다.
작업은 작은 부품으로 분류되어야합니다
길거나 다단계 프롬프트는 더 작고 집중된 세그먼트로 나누어야합니다. 한 번에 하나 또는 두 개의 지침을 제공하면 모델이 더 나은 관심을 유지하고 모든 단계를 누락 할 가능성을 줄일 수 있습니다.
예
모든 지침을 단일 프롬프트에 결합하는 대신,텍스트를 요약하고, 주요 요점을 나열하고, 개선을 제안하며, 프랑스어로 번역하십시오.,”각 지침은 별도로 또는 소규모 그룹으로 제시되어야합니다.
명령어는 번호가 매겨진 목록 또는 총알 포인트를 사용하여 서식해야합니다.
번호가 매겨진 목록 또는 총알 포인트와 같은 명시 적 형식으로 지침을 구성하면 각 항목이 개별 작업임을 나타냅니다. 이러한 명확성은 응답이 모든 지침을 해결할 가능성을 높입니다.
예
- 다음 텍스트를 요약하십시오.
- 주요 요점을 나열하십시오.
- 개선을 제안합니다.
이러한 형식은 모델이 프롬프트 내에서 고유 한 작업을 인식하고 분리하는 데 도움이되는 시각적 신호를 제공합니다.
지침은 명시적이고 모호하지 않아야합니다
지시 사항은 모든 단계를 완료 해야하는 요구 사항을 명확하게 진술해야합니다. 모호하거나 모호한 언어를 피해야합니다. 프롬프트는 단계를 건너 뛸 수 없음을 명시 적으로 나타냅니다.
예
“아래 세 가지 작업을 모두 완료하십시오. 어떤 단계를 건너 뛰는 것은 허용되지 않습니다.”
이와 같은 직접 진술은 혼란을 줄이고 모델이 완전한 답변을 제공하도록 장려합니다.
별도의 프롬프트는 고위험 또는 중요한 작업에 사용해야합니다.
각 명령은 정확성과 완전성이 중요한 작업을위한 개별 프롬프트로 제출해야합니다. 이 접근법은 상호 작용 시간을 증가시킬 수 있지만 완전하고 정확한 출력을 얻을 가능성을 크게 향상시킵니다. 이 방법은 모델이 한 번에 하나의 작업에 전적으로 초점을 맞추고 누락 된 지침의 위험을 줄입니다.
완전성과 효율성의 균형을 맞추기위한 고급 전략
모든 단일 명령 후에 응답을 기다리는 것은 사용자에게 시간이 많이 걸릴 수 있습니다. 명확성을 유지하고 건너 뛰기 명령을 줄이면 효율성을 향상시키기 위해 다음과 같은 고급 프롬프트 기술이 효과적 일 수 있습니다.
명확한 형식 및 명시 적 라벨을 가진 배치 지침
다중 관련 지침을 단일 프롬프트로 결합 할 수 있지만 각각 번호 매기기 또는 제목을 사용하여 분리해야합니다. 프롬프트는 또한 모델에 모든 지침에 전적으로 그리고 순서대로 응답하도록 지시해야합니다.
예제 프롬프트
건너 뛰지 않고 다음과 같은 모든 작업을주의 깊게 완료하십시오.
- 아래 텍스트를 요약하십시오.
- 요약에서 주요 요점을 나열하십시오.
- 요점에 따라 개선을 제안합니다.
- 개선 된 텍스트를 프랑스어로 변환하십시오.
생각한 스타일의 프롬프트
사슬의 프롬프트는 대답을 제공하기 전에 각 작업 단계를 통해 추론하도록 모델을 안내합니다. 단일 응답 내에서 지침을 순차적으로 처리하도록 장려하면 단계가 간과되지 않도록하여 지침을 건너 뛸 가능성을 줄이고 완전성을 향상시킬 수 있습니다.
예제 프롬프트
아래 텍스트를 읽고 순서대로 다음 작업을 수행하십시오. 작업을 명확하게 표시하십시오.
- 텍스트를 요약하십시오.
- 요약에서 주요 요점을 식별하십시오.
- 텍스트 개선을 제안합니다.
- 개선 된 텍스트를 프랑스어로 변환하십시오.
하나의 답변으로 모든 작업에 완전히 답변하십시오.
완료 지침 및 알림을 추가하십시오
모델을 명시 적으로 상기시킵니다.
- “모든 작업에 완전히 대답하십시오.”
- “어떤 지시도 건너 뛰지 마십시오.”
- “답을 명확하게 분리하십시오.”
이러한 알림은 여러 지시 사항이 결합 될 때 모델이 완전성에 초점을 맞추는 데 도움이됩니다.
다른 모델과 매개 변수 설정을 테스트해야합니다
모든 LLM이 여러 지시 사항에 따라 동일하게 수행되는 것은 아닙니다. 다단계 작업에서 탁월한 모델을 식별하기 위해 다양한 모델을 평가하는 것이 좋습니다. 또한 온도, 최대 토큰 및 시스템 프롬프트와 같은 매개 변수 조정은 응답의 초점과 완전성을 더욱 향상시킬 수 있습니다. 이러한 설정을 테스트하면 모델 동작을 특정 작업 요구 사항에 맞게 조정할 수 있습니다.
미세 조정 모델과 외부 도구를 활용해야합니다
복잡한 프롬프트에 대한 준수를 향상시키기위한 다중 단계 또는 순차 지침이 포함 된 데이터 세트에서 모델을 미세 조정해야합니다. RLHF와 같은 기술은 다음과 같은 지시를 더욱 향상시킬 수 있습니다.
고급 사용 사례의 경우 API, 작업 별 플러그인 및와 같은 외부 도구의 통합 또는 검색 증강 세대 (rag) 시스템은 추가 컨텍스트와 제어를 제공하여 출력의 신뢰성과 정확성을 향상시킬 수 있습니다.
결론
LLM은 강력한 도구이지만 프롬프트가 길거나 복잡 할 때 지침을 건너 뛸 수 있습니다. 이것은 때문에 발생합니다 그들이 입력을 읽고 관심을 집중시키는 방법. 더 좋고 신뢰할 수있는 결과를 위해 명확하고 간단하며 잘 조직되어야합니다. 작업을 작은 부품으로 나누고 목록을 사용하고 직접 지침을 제공하면 모델이 단계를 완전히 따르는 데 도움이됩니다.
별도의 프롬프트는 중요한 작업의 정확도를 향상시킬 수 있지만 시간이 더 걸립니다. 또한, 생각의 체인 및 명확한 형식과 같은 고급 프롬프트 방법은 속도와 정밀도 균형을 유지하는 데 도움이됩니다. 또한, 다른 모델과 미세 조정을 테스트하면 결과가 향상 될 수 있습니다. 이러한 아이디어는 사용자가 일관되고 완전한 답변을 얻고 AI 도구를 실제 작업에 더 유용하게 만듭니다.
게시물 큰 언어 모델이 지침을 건너 뛰고 문제를 해결하는 방법 먼저 나타났습니다 Unite.ai.