판사로서의 LLM: 언어 모델을 사용하여 언어 모델을 평가하기 위한 확장 가능한 솔루션

aayush mittal

11개월 ago

판사로서의 LLM: 언어 모델을 사용하여 언어 모델을 평가하기 위한 확장 가능한 솔루션

판사로서의 LLM 프레임워크는 비용이 많이 들고 느리며 실행 가능하게 평가할 수 있는 응답의 양에 따라 제한되는 인간 평가에 대한 확장 가능하고 자동화된 대안입니다. LLM을 사용하여 다른 LLM의 결과를 평가함으로써 팀은 일관되고 복제 가능한 방식으로 정확성, 관련성, 어조 및 특정 지침 준수 여부를 효율적으로 추적할 수 있습니다.

생성된 텍스트를 평가하면 기존의 정확도 측정 기준을 넘어서는 고유한 과제가 발생합니다. 싱글 즉각적인 스타일, 어조, 표현이 서로 다른 여러 정답이 나올 수 있으므로 간단한 정량적 측정 기준을 사용하여 품질을 벤치마킹하기가 어렵습니다.

여기에서 판사로서의 LLM 접근 방식이 눈에 띕니다. 어조, 유용성, 대화 일관성과 같은 복잡한 특성에 대한 미묘한 평가를 허용합니다. 모델 버전을 비교하거나 실시간 결과를 평가하는 데 사용되는 경우 심사위원으로서 LLM은 인간의 판단에 근접하는 유연한 방법을 제공하므로 대규모 데이터 세트 및 실시간 상호 작용 전반에 걸쳐 평가 노력을 확장하는 데 이상적인 솔루션이 됩니다.

이 가이드에서는 판사로서의 LLM이 어떻게 작동하는지, 다양한 평가 유형, 다양한 상황에서 이를 효과적으로 구현하기 위한 실제 단계를 살펴봅니다. 기준을 설정하고, 평가 프롬프트를 설계하고, 지속적인 개선을 위한 피드백 루프를 구축하는 방법을 다룹니다.

판사로서의 LLM 개념

LLM 판사 LLM을 사용하여 다른 AI 시스템의 텍스트 출력을 평가합니다. 공정한 평가자 역할을 하는 LLM은 관련성, 간결성, 어조 등의 사용자 정의 기준에 따라 생성된 텍스트를 평가할 수 있습니다. 이 평가 프로세스는 가상 평가자가 보고서에 제공된 특정 지침에 따라 각 결과를 검토하도록 하는 것과 유사합니다. 즉각적인. 이는 볼륨이나 시간 제약으로 인해 사람의 검토가 불가능한 콘텐츠가 많은 애플리케이션에 특히 유용한 프레임워크입니다.

작동 방식

판사로서의 LLM은 평가 프롬프트 내의 지침을 기반으로 텍스트 응답을 평가하도록 설계되었습니다. 프롬프트는 일반적으로 LLM이 결과를 평가할 때 고려해야 하는 유용성, 관련성 또는 명확성과 같은 품질을 정의합니다. 예를 들어 프롬프트는 각 라벨에 수반되는 지침에 따라 챗봇 응답이 “유용”인지 “도움이 되지 않음”인지 결정하도록 LLM에 요청할 수 있습니다.

그만큼 법학대학원 내부 지식과 학습된 언어 패턴을 사용하여 제공된 텍스트를 평가하고 응답 품질에 대한 프롬프트 기준을 일치시킵니다. 명확한 기대치를 설정함으로써 평가자는 LLM의 초점을 조정하여 측정하기 어려울 수 있는 공손함이나 특이성과 같은 미묘한 특성을 포착할 수 있습니다. 기존의 평가 지표와 달리 LLM-as-a-Judge는 다양한 콘텐츠 유형 및 평가 요구 사항에 적응할 수 있는 인간 판단에 대한 유연하고 높은 수준의 근사치를 제공합니다.

평가 유형

쌍별 비교: 이 방법에서는 LLM에게 동일한 프롬프트에 대해 두 가지 응답이 제공되고 관련성이나 정확성과 같은 기준에 따라 “더 나은” 응답을 선택하도록 요청됩니다. 이러한 유형의 평가는 개발자가 다양한 버전의 모델 또는 프롬프트 구성을 비교하는 A/B 테스트에서 자주 사용됩니다. LLM에게 특정 기준에 따라 어떤 응답이 더 잘 수행되는지 판단하도록 요청함으로써 쌍별 비교는 모델 출력의 선호도를 결정하는 간단한 방법을 제공합니다.
직접 채점: 직접 채점은 LLM이 정중함, 어조 또는 명확성과 같은 사전 정의된 특성을 기반으로 단일 결과에 점수를 매기는 참조 없는 평가입니다. 직접 채점은 오프라인 및 온라인 평가 모두에서 잘 작동하며 다양한 상호 작용 전반에 걸쳐 품질을 지속적으로 모니터링할 수 있는 방법을 제공합니다. 이 방법은 시간이 지남에 따라 일관된 품질을 추적하는 데 유용하며 생산 과정에서 실시간 응답을 모니터링하는 데 자주 사용됩니다.
참조 기반 평가: 이 방법은 참조 답변이나 지원 자료와 같은 추가 컨텍스트를 도입하여 생성된 응답을 평가합니다. 이것은 일반적으로 사용됩니다 검색-증강 생성 (RAG) 설정, 여기서 응답은 검색된 지식과 밀접하게 일치해야 합니다. 이 접근 방식은 출력을 참조 문서와 비교함으로써 생성된 텍스트의 환각 확인 등 사실적 정확성과 특정 콘텐츠에 대한 준수 여부를 평가하는 데 도움이 됩니다.

사용 사례

판사로서의 LLM은 다양한 응용 분야에 적용 가능합니다.

챗봇: 일관된 품질을 보장하기 위해 관련성, 어조, 유용성과 같은 기준에 따라 응답을 평가합니다.
요약: 충실도를 유지하기 위해 간결성, 명확성 및 소스 문서와의 정렬에 대한 점수 요약입니다.
코드 생성: 코드 조각의 정확성, 가독성, 주어진 지침이나 모범 사례 준수 여부를 검토합니다.

이 방법은 사람의 철저한 검토 없이 모델 성능을 지속적으로 모니터링하고 개선함으로써 이러한 애플리케이션을 향상시키는 자동 평가기 역할을 할 수 있습니다.

LLM 심사위원 구성 – 단계별 가이드

LLM 기반 평가 설정을 만들려면 신중한 계획과 명확한 지침이 필요합니다. 강력한 판사로서의 LLM 평가 시스템을 구축하려면 다음 단계를 따르십시오.

1단계: 평가 기준 정의

LLM이 평가할 특정 자질을 정의하는 것부터 시작하세요. 평가 기준에는 다음과 같은 요소가 포함될 수 있습니다.

관련성: 응답이 질문이나 프롬프트를 직접적으로 다루고 있습니까?
음정: 어조가 문맥에 적합한가(예: 전문적, 친근함, 간결함)?
정확성: 특히 지식 기반 응답에서 제공되는 정보가 실제로 정확한가요?

예를 들어, 챗봇을 평가하는 경우 관련성과 유용성에 우선순위를 두어 유용한 주제 관련 응답을 제공할 수 있습니다. 모호한 지침은 일관되지 않은 평가로 이어질 수 있으므로 각 기준을 명확하게 정의해야 합니다. 간단한 이진 또는 척도 기준(예: “관련성” 대 “관련성 없음” 또는 유용성에 대한 리커트 척도)을 정의하면 일관성이 향상될 수 있습니다.

2단계: 평가 데이터 세트 준비

LLM 심사위원을 보정하고 테스트하려면 레이블이 지정된 예시가 포함된 대표 데이터세트가 필요합니다. 이 데이터 세트를 준비하는 데는 두 가지 주요 접근 방식이 있습니다.

생산 데이터: 애플리케이션의 기록 출력 데이터를 사용합니다. 각 기준에 대한 다양한 품질 수준을 포괄하는 일반적인 응답을 나타내는 예를 선택하세요.
합성 데이터: 생산 데이터가 제한적인 경우 합성 사례를 생성할 수 있습니다. 이러한 예는 예상되는 응답 특성을 모방하고 보다 포괄적인 테스트를 위해 극단적인 사례를 다루어야 합니다.

데이터세트가 있으면 평가 기준에 따라 수동으로 라벨을 지정하세요. 이 라벨이 붙은 데이터 세트는 LLM 심사위원의 일관성과 정확성을 측정할 수 있는 근거 자료 역할을 합니다.

3단계: 효과적인 프롬프트 작성

신속한 엔지니어링 LLM 판사를 효과적으로 안내하는 데 매우 중요합니다. 각 프롬프트는 명확하고 구체적이어야 하며 평가 기준에 부합해야 합니다. 다음은 각 평가 유형에 대한 예입니다.

쌍별 비교 프롬프트

 You will be shown two responses to the same question. Choose the response that is more helpful, relevant, and detailed. If both responses are equally good, mark them as a tie.Question: [Insert question here]Response A: [Insert Response A]Response B: [Insert Response B]Output: "Better Response: A" or "Better Response: B" or "Tie"

직접 채점 프롬프트

 Evaluate the following response for politeness. A polite response is respectful, considerate, and avoids harsh language. Return "Polite" or "Impolite."Response: [Insert response here]Output: "Polite" or "Impolite"

참조 기반 평가 프롬프트

 Compare the following response to the provided reference answer. Evaluate if the response is factually correct and conveys the same meaning. Label as "Correct" or "Incorrect."Reference Answer: [Insert reference answer here]Generated Response: [Insert generated response here]Output: "Correct" or "Incorrect"

이러한 방식으로 프롬프트를 작성하면 모호함이 줄어들고 LLM 심사위원이 각 답변을 평가하는 방법을 정확하게 이해할 수 있습니다. 프롬프트 명확성을 더욱 향상시키려면 단일 프롬프트에 여러 요소를 혼합하는 대신 각 평가의 범위를 하나 또는 두 가지 품질(예: 관련성 및 세부 사항)로 제한하십시오.

4단계: 테스트 및 반복

프롬프트와 데이터세트를 생성한 후 레이블이 지정된 데이터세트에서 실행하여 LLM 심사위원을 평가하세요. LLM의 출력을 할당한 정답 레이블과 비교하여 일관성과 정확성을 확인하세요. 평가를 위한 주요 지표는 다음과 같습니다.

정도: 올바른 긍정적 평가의 비율입니다.
상기하다: LLM에 의해 올바르게 식별된 실측 긍정의 비율입니다.
정확성: 올바른 평가의 전체 비율입니다.

테스트는 LLM 심사위원 성과의 불일치를 식별하는 데 도움이 됩니다. 예를 들어, 판사가 유용한 답변을 도움이 되지 않는 것으로 잘못 표시하는 경우가 많으면 평가 프롬프트를 개선해야 할 수도 있습니다. 작은 샘플로 시작한 다음 반복하면서 데이터세트 크기를 늘립니다.

이 단계에서는 교차 검증을 위해 다양한 프롬프트 구조를 실험하거나 여러 LLM을 사용하는 것을 고려해보세요. 예를 들어, 한 모델이 장황한 경향이 있는 경우 보다 간결한 LLM 모델로 테스트하여 결과가 실제 사실과 더 밀접하게 일치하는지 확인하십시오. 프롬프트 수정에는 레이블 조정, 언어 단순화 또는 복잡한 프롬프트를 더 작고 관리하기 쉬운 프롬프트로 나누는 작업이 포함될 수 있습니다.

코드 구현: 판사로서의 LLM 실행

이 섹션에서는 Python을 사용하여 LLM-as-a-Judge 프레임워크를 설정하고 구현하는 과정을 안내합니다. 포옹하는 얼굴. LLM 클라이언트 설정부터 데이터 처리 및 평가 실행까지 이 섹션에서는 전체 파이프라인을 다룹니다.

LLM 클라이언트 설정

LLM을 평가자로 사용하려면 먼저 평가 작업에 맞게 구성해야 합니다. 여기에는 Hugging Face 허브에서 사용할 수 있는 사전 훈련된 모델을 사용하여 추론 및 평가 작업을 수행하도록 LLM 모델 클라이언트를 설정하는 작업이 포함됩니다. 여기에서 우리는 huggingface_hub 설정을 단순화합니다.

 import pandas as pdfrom huggingface_hub import InferenceClient# Initialize the LLM client with a specific model repositoryrepo_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"llm_client = InferenceClient(model=repo_id, timeout=120)

이 설정에서는 확장된 평가 요청을 처리하기 위해 모델이 시간 초과 제한으로 초기화됩니다. 꼭 교체하세요 repo_id 선택한 모델에 대한 올바른 저장소 ID를 사용하세요.

데이터 로드 및 준비

LLM 클라이언트를 설정한 후 다음 단계는 평가용 데이터를 로드하고 준비하는 것입니다. 우리는 사용할 것이다 pandas 데이터 조작과 datasets 기존 데이터 세트를 로드하는 라이브러리입니다. 아래에서는 평가를 위한 질문과 답변이 포함된 작은 데이터세트를 준비합니다.

 import pandas as pdfrom datasets import load_dataset# Load a sample dataset (replace with your dataset)data = load_dataset("your_dataset_id")["train"]# Extract relevant fields for evaluationdf = pd.DataFrame({    'question': data['question_field'],    'answer': data['answer_field']})df.head()

데이터세트에 질문-답변 쌍이나 예상 출력 형식 등 평가 기준과 관련된 필드가 포함되어 있는지 확인하세요.

LLM 판사와 평가

데이터가 로드되고 준비되면 응답을 평가하는 함수를 만들 수 있습니다. 이 예에서는 제공된 질문-답변 쌍을 기반으로 답변의 관련성과 정확성을 평가하는 함수를 보여줍니다.

 def evaluate_answer(question, answer):    # Craft a prompt to evaluate relevance and accuracy    prompt = f"Evaluate the response's relevance and accuracy:nQuestion: {question}nAnswer: {answer}"    result = llm_client.text_generation(prompt=prompt, max_new_tokens=50)    return result# Test the function with an examplequestion = "How does the FED's actions impact inflation?"answer = "When the FED buys bonds, it can lead to..."evaluation = evaluate_answer(question, answer)print("LLM Evaluation:", evaluation)

이 기능은 LLM에 질문-답변 쌍을 보내고 LLM은 평가 프롬프트에 따라 판단하여 응답합니다. “관련성 및 어조” 또는 “간결성”과 같이 프롬프트에 지정된 기준을 수정하여 이 프롬프트를 다른 평가 작업에 적용할 수 있습니다.

쌍별 비교 구현

두 모델 출력을 비교하려는 경우 LLM이 응답 간의 판단 역할을 할 수 있습니다. 우리는 지정된 기준에 따라 두 가지 중 더 나은 응답을 선택하도록 LLM에 지시하도록 평가 프롬프트를 조정합니다.

 def evaluate_pairwise(question, answer_a, answer_b):    # Craft a prompt for pairwise comparison    prompt = (        f"Given the question below, determine which response is more relevant and detailed.nn"        f"Question: {question}nn"        f"Response A: {answer_a}nn"        f"Response B: {answer_b}nn"        "Choose the better response: A or B."    )    result = llm_client.text_generation(prompt=prompt, max_new_tokens=10)    return result# Example pairwise comparisonquestion = "What is the impact of the FED's bond-buying actions?"answer_a = "The FED's actions can increase the money supply."answer_b = "The FED's bond purchases generally raise inflation."comparison = evaluate_pairwise(question, answer_a, answer_b)print("Better Response:", comparison)

이 기능은 응답을 평가하고 순위를 매기는 실용적인 방법을 제공하며, 이는 모델 응답을 최적화하기 위한 A/B 테스트 시나리오에서 특히 유용합니다.

실용적인 팁과 과제

판사로서의 LLM 프레임워크는 강력한 도구이지만 몇 가지 실제적인 고려 사항은 성능을 향상하고 시간이 지남에 따라 정확성을 유지하는 데 도움이 될 수 있습니다.

프롬프트 제작 모범 사례

효과적인 프롬프트를 작성하는 것이 정확한 평가의 핵심입니다. 다음은 몇 가지 실용적인 팁입니다.

편견을 피하세요: LLM은 프롬프트 구조에 따라 선호 편향을 보여줄 수 있습니다. 프롬프트 내에서 “올바른” 답변을 제안하지 말고 질문이 중립적인지 확인하십시오.
장황한 편견 줄이기: LLM은 좀 더 자세한 답변을 선호할 수 있습니다. 자세한 내용이 기준이 아닌 경우 간결성을 지정하십시오.
위치 편향 최소화: 쌍별 비교에서는 답변의 순서를 주기적으로 무작위화하여 첫 번째 또는 두 번째 응답에 대한 위치 편향을 줄입니다.

예를 들어, “아래에서 가장 좋은 답변을 선택하세요”라고 말하기보다는 “명확하고 간결하게 설명하는 답변을 선택하세요”라고 직접적으로 기준을 지정하세요.

제한 사항 및 완화 전략

LLM 심사위원은 인간과 유사한 판단을 복제할 수 있지만 다음과 같은 한계도 있습니다.

작업 복잡성: 일부 작업, 특히 수학이나 깊은 추론이 필요한 사람들은 LLM의 능력을 초과할 수 있습니다. 정확한 사실 지식이 필요한 작업에는 더 간단한 모델이나 외부 유효성 검사기를 사용하는 것이 도움이 될 수 있습니다.
의도하지 않은 편견: LLM 심사위원은 “위치 편향”(특정 위치의 응답 선호) 또는 “자기 향상 편향”(이전 답변과 유사한 답변 선호)이라는 표현을 기반으로 편향을 표시할 수 있습니다. 이를 완화하려면 위치 가정을 피하고 평가 추세를 모니터링하여 불일치를 찾아내십시오.
출력의 모호함: LLM이 모호한 평가를 생성하는 경우 간단한 작업을 위해 예/아니요 또는 긍정/부정 분류가 필요한 이진 프롬프트 사용을 고려하세요.

결론

판사로서의 LLM 프레임워크는 AI에서 생성된 텍스트 출력을 평가하기 위한 유연하고 확장 가능하며 비용 효율적인 접근 방식을 제공합니다. 적절한 설정과 사려 깊은 프롬프트 디자인을 통해 챗봇에서 요약기, QA 시스템에 이르기까지 다양한 애플리케이션에서 인간과 같은 판단을 모방할 수 있습니다.

주의 깊은 모니터링, 신속한 반복 및 한계 인식을 통해 팀은 LLM 심사위원이 실제 지원 요구 사항에 부합하도록 할 수 있습니다.

게시물 판사로서의 LLM: 언어 모델을 사용하여 언어 모델을 평가하기 위한 확장 가능한 솔루션 처음 등장한 Unite.AI.