LLM을 위한 벤치마크

8월 29, 2024

277

LLM 성과 평가에서 벤치마크의 역할과 한계를 이해합니다. 견고한 LLM을 개발하기 위한 기술을 탐구합니다.

대규모 언어 모델은 최근 몇 년 동안 엄청난 인기를 얻었습니다. 제 말은, 여러분이 이미 보셨을 겁니다. LLM은 인간 언어 명령을 이해하는 뛰어난 능력으로 인해 기업에 완벽하게 통합되어 중요한 워크플로를 지원하고 작업을 최대한 효율적으로 자동화합니다. 게다가 일반 사용자의 이해를 넘어서 LLM이 할 수 있는 일이 훨씬 더 많습니다. 그리고 이에 대한 의존도가 커짐에 따라 필요한 정확성과 신뢰성을 보장하기 위한 조치에 더 많은 주의를 기울여야 합니다. 이는 전체 기관과 관련된 글로벌 과제이지만, 기업 영역에서는 이제 다양한 도메인에서 LLM의 성과를 평가하는 데 사용할 수 있는 여러 벤치마크가 있습니다. 이를 통해 이해, 논리 구축, 수학 등에서 모델의 능력을 테스트할 수 있으며, 그 결과는 LLM이 비즈니스 배포에 준비되었는지 여부를 결정합니다.

이 글에서는 LLM 평가에 가장 인기 있는 벤치마크의 포괄적인 목록을 모았습니다. 각 벤치마크를 자세히 논의하고 다양한 LLM이 평가 기준에 어떻게 적용되는지 살펴보겠습니다. 하지만 먼저 LLM 평가를 더 자세히 이해해 보겠습니다.

LLM 평가란 무엇인가요?

다른 AI 모델과 마찬가지로 LLM도 언어 모델 성능의 다양한 측면을 평가하는 특정 벤치마크에 대해 평가해야 합니다. 즉, 지식, 정확성, 신뢰성, 일관성입니다. 표준에는 일반적으로 다음이 포함됩니다.

사용자 질의 이해: 모델이 광범위한 사용자 입력을 정확하게 이해하고 해석할 수 있는 능력을 평가합니다.
출력 검증: 신뢰할 수 있는 지식 기반과 AI가 생성한 응답을 비교하여 정확하고 관련성이 있는지 확인합니다.
견고성: 모호하고 불완전하거나 노이즈가 있는 입력을 사용하여 모델이 얼마나 잘 수행되는지 측정합니다.

LLM 평가는 개발자에게 제한 사항을 효율적으로 식별하고 해결할 수 있는 권한을 부여하여 전반적인 사용자 경험을 개선할 수 있습니다. LLM이 철저히 평가되면 모호하거나 예상치 못한 입력이 있는 애플리케이션을 포함하여 다양한 실제 애플리케이션을 처리할 수 있을 만큼 정확하고 견고할 것입니다.

벤치마크

LLM은 지금까지 가장 복잡한 기술 중 하나이며 가장 까다로운 응용 프로그램도 구동할 수 있습니다. 따라서 평가 프로세스는 단순히 똑같이 복잡해야 하며 사고 과정과 기술적 정확성을 테스트해야 합니다.

벤치마크는 특정 데이터 세트, 메트릭, 평가 작업을 사용하여 LLM 성과를 테스트하고, 다양한 LLM을 비교하고 정확도를 측정할 수 있도록 합니다. 이를 통해 성과가 향상되어 업계가 발전할 수 있습니다.

LLM 성적의 가장 일반적인 측면은 다음과 같습니다.

지식: 모델의 지식은 다양한 도메인에서 테스트되어야 합니다. 그것이 지식 벤치마크의 목적입니다. 그것은 모델이 물리학, 프로그래밍, 지리 등과 같은 다양한 분야에서 정보를 얼마나 효과적으로 회수할 수 있는지 평가합니다.
논리적 추리: 모델이 단계별로 ‘생각’하고 논리적인 결론을 도출하는 능력을 테스트하는 것을 의미합니다. 일반적으로 모델이 일상적인 지식과 논리적 추론에 따라 가장 그럴듯한 연속이나 설명을 선택해야 하는 시나리오가 포함됩니다.
독해 이해: 모델은 자연어 해석에 뛰어나야 하고 그에 따라 응답을 생성해야 합니다. 이 시험은 이해력, 추론력, 세부 사항 기억력을 측정하기 위해 구절을 기반으로 한 질문에 답하는 것처럼 보입니다. 학교 독해 시험과 같습니다.
코드 이해: 이는 모델의 코드 이해, 작성 및 디버깅 능력을 측정하는 데 필요합니다. 이러한 벤치마크는 모델이 정확하게 해결해야 하는 코딩 작업이나 문제를 모델에 제공하며, 종종 다양한 프로그래밍 언어와 패러다임을 포괄합니다.
세계 지식: 세계에 대한 일반 지식에 대한 모델의 이해를 평가합니다. 이러한 데이터 세트는 일반적으로 정답을 얻으려면 광범위하고 백과사전적인 지식이 필요한 질문이 있어 보다 구체적이고 전문적인 지식 벤치마크와 다릅니다.

“지식” 벤치마크

MMLU(다중모달 언어 이해)

이 벤치마크는 인문학, 사회 과학, 역사, 컴퓨터 과학, 심지어 법학과 같은 다양한 주제에 대한 LLM의 사실적 지식에 대한 이해를 테스트하기 위해 만들어졌습니다. 57개의 질문과 15,000개의 과제는 모두 모델이 뛰어난 추론 능력을 가지고 있는지 확인하는 데 중점을 두고 있습니다. 이는 MMLU가 다양한 주제를 다루는 LLM의 사실적 지식과 추론을 평가하는 데 좋은 도구가 되게 합니다.

최근에는 위에서 언급한 분야의 LLM을 평가하는 주요 벤치마크가 되었습니다. 개발자는 항상 이 벤치마크에서 다른 모델보다 우수한 성과를 내도록 모델을 최적화하고자 하며, 이로 인해 LLM에서 고급 추론 및 지식을 평가하는 사실상의 표준이 되었습니다. 대규모 엔터프라이즈급 모델은 다음을 보여주었습니다. 인상적인 점수 이 벤치마크에서 GPT-4-omni는 88.7%, Claude 3 Opus는 86.8%, Gemini 1.5 Pro는 85.9%, Llama-3 70B는 82%를 기록했습니다. 일반적으로 소형 모델은 이 벤치마크에서 60-65%를 넘지 않아 좋은 성능을 보이지 않지만, 최근 Phi-3-Small-7b의 75.3% 성능은 생각해볼 만한 수준입니다.

그러나 MMLU에는 단점이 없는 것은 아닙니다. 모호한 질문과 같은 알려진 문제가 있습니다. 틀린 답변그리고 맥락이 누락되었습니다. 그리고, 많은 사람들은 일부 과제가 적절한 LLM 평가에 너무 쉽다고 생각합니다.

MMLU와 같은 벤치마크가 실제 상황을 완벽하게 묘사하지는 않는다는 점을 분명히 하고 싶습니다. LLM이 이 부분에서 좋은 점수를 받았다고 해서 반드시 해당 분야의 전문가가 되었다는 것을 의미하는 것은 아닙니다. 벤치마크는 범위가 매우 제한적이며 종종 객관식 문제에 의존하는데, 이는 실제 상호작용의 복잡성과 맥락을 완전히 포착할 수 없습니다. 진정한 이해는 사실을 알고 그 지식을 동적으로 적용해야 하며, 여기에는 비판적 사고, 문제 해결 및 맥락적 이해가 포함됩니다. 이러한 이유로 LLM은 모델이 벤치마크의 관련성과 효과를 유지하도록 지속적으로 개선하고 업데이트해야 합니다.

GPQA(대학원 수준 Google 검증 Q&A 벤치마크)

이 벤치마크는 논리적 추론을 사용하여 LLM을 평가합니다. 데이터 세트 448개의 질문으로만 구성되어 있습니다. 도메인 전문가가 개발했으며 생물학, 물리학, 화학의 주제를 다룹니다.

각 질문은 다음과 같은 검증 과정을 거칩니다.

같은 주제의 전문가가 질문에 답변하고 자세한 피드백을 제공합니다.
질문 작성자는 이 피드백을 토대로 질문을 수정합니다.
두 번째 전문가가 수정된 질문에 답변합니다.

이 프로세스는 실제로 질문이 언어 모델에 대해 객관적이고 정확하며 도전적임을 보장할 수 있습니다. 숙련된 박사 학자조차도 이러한 질문에 대해 65%의 정확도만 달성하는 반면 GPT-4-omni는 53.6%에 불과하여 인간과 기계 지능 간의 격차를 강조합니다.

자격 요건이 높기 때문에 데이터 세트는 실제로 매우 작아서 정확도를 비교하는 통계적 힘이 다소 제한되고 큰 효과 크기가 필요합니다. 이러한 질문을 만들고 검증한 전문가는 Upwork에서 왔으므로 전문성과 다루는 주제에 따라 편향이 생길 가능성이 있습니다.

코드 벤치마크

인간평가

164개의 프로그래밍 문제, LLM 코딩 능력에 대한 실제 테스트입니다. 인간평가. 대규모 언어 모델(LLM)의 기본 코딩 능력을 테스트하도록 설계되었습니다. pass@k 메트릭을 사용하여 생성되는 코드의 기능적 정확도를 판단하며, 이는 상위 k LLM 생성 코드 샘플 중 적어도 하나가 테스트 케이스를 통과할 확률을 출력합니다.

HumanEval 데이터세트에는 함수 시그니처, 문서 문자열, 코드 본문, 여러 단위 테스트가 포함되어 있지만 실제 코딩 문제의 전체 범위가 포함되어 있지 않아 다양한 시나리오에서 올바른 코드를 작성하는 모델의 기능을 적절하게 테스트할 수 없습니다.

MBPP(대부분 기본 파이썬 프로그래밍)

씨 benchmark는 1,000개의 크라우드 소싱 Python 프로그래밍 문제로 구성되어 있습니다. 이는 입문 수준 문제이며 기본적인 프로그래밍 기술에 초점을 맞춥니다. 이 데이터 세트에서는 일반적으로 더 큰 모델이 더 나은 성능을 보이는 몇 가지 샷 및 미세 조정 접근 방식을 사용하여 모델 성능을 평가합니다. 그러나 데이터 세트에는 주로 입문 수준 프로그램이 포함되어 있기 때문에 여전히 실제 애플리케이션의 복잡성과 과제를 완전히 표현하지는 못합니다.

수학 벤치마크

대부분 LLM은 표준 응답을 구성하는 데 매우 뛰어나지만, 수학적 추론은 그들에게 훨씬 더 큰 문제입니다. 왜? 질문 이해, 수학적 추론을 통한 단계별 논리적 접근, 정답 도출과 관련된 기술이 필요하기 때문입니다.

“Chain of Thought”(CoT) 방법은 수학 관련 벤치마크에서 LLM을 평가하기 위해 만들어졌으며, 문제를 풀 때 모델이 단계별 추론 과정을 설명하도록 촉구하는 것을 포함합니다. 여기에는 여러 가지 이점이 있습니다. 추론 과정을 더 투명하게 만들고, 모델 논리의 결함을 식별하는 데 도움이 되며, 문제 해결 기술을 더 세부적으로 평가할 수 있습니다. 복잡한 문제를 일련의 더 간단한 단계로 분해함으로써 CoT는 수학 벤치마크에서 모델의 성능을 개선하고 추론 기능에 대한 더 깊은 통찰력을 제공할 수 있습니다.

GSM8K: 인기 있는 수학 벤치마크

LLM에서 수학 능력을 평가하는 잘 알려진 벤치마크 중 하나는 GSM8K 데이터 세트입니다. GSM8K는 8.5k개의 중학교 수학 문제로 구성되어 있으며, 이를 풀기 위해 몇 단계가 필요하고, 솔루션은 주로 일련의 초보적인 계산을 수행하는 것을 포함합니다. 일반적으로 더 큰 모델이나 수학적 추론을 위해 특별히 훈련된 모델은 이 벤치마크에서 더 나은 성과를 거두는 경향이 있습니다. 예를 들어 GPT-4 모델은 96.5%의 점수를 자랑하는 반면 DeepSeekMATH-RL-7B는 88.2%로 약간 뒤처집니다.

GSM8K는 초등학교 수준의 수학 문제를 처리하는 모델의 능력을 평가하는 데 유용하지만, 보다 진보적이거나 다양한 수학적 과제를 해결하는 모델의 능력을 완벽하게 포착하지 못할 수 있으므로 수학 능력을 종합적으로 측정하는 데 효과적이지 못합니다.

수학 데이터 세트: 포괄적 대안

수학 데이터 세트는 GSM8K와 같은 벤치마크의 단점을 다루었습니다. 이 데이터 세트는 더 광범위하여 초등 산수에서 고등학교, 심지어 대학 수준의 문제까지 다룹니다. 또한 인간과 비교했는데, 수학을 좋아하지 않는 컴퓨터 과학 박사 학생이 40%의 정확도를 달성했고 금메달리스트가 90%의 정확도를 달성했습니다.

LLM의 수학적 역량에 대한 보다 포괄적인 평가를 제공합니다. 모델이 기본 산수에 능숙하고 대수, 기하학, 미적분과 같은 복잡한 분야에서 유능하다는 것을 증명합니다. 그러나 문제의 복잡성과 다양성이 증가함에 따라 모델이 높은 정확도를 달성하는 것이 어려울 수 있으며, 특히 광범위한 수학적 개념에 대해 명시적으로 훈련되지 않은 모델의 경우 더욱 그렇습니다. 또한 수학 데이터 세트의 다양한 문제 형식은 모델 성능에 불일치를 초래할 수 있으며, 이로 인해 모델의 전반적인 수학적 능숙도에 대한 확실한 결론을 도출하기가 훨씬 더 어려워집니다.

수학 데이터 세트와 함께 Chain of Thought 방법을 사용하면 광범위한 수학적 과제에 걸쳐 LLM의 단계별 추론 능력을 보여주기 때문에 평가를 강화할 수 있습니다. 이와 같은 결합된 접근 방식은 LLM의 진정한 수학적 역량에 대한 보다 견고하고 자세한 평가가 이루어지도록 합니다.

독해 이해 벤치마크

독해 능력 평가는 모델의 복잡한 텍스트를 이해하고 처리하는 능력을 평가하는데, 이는 고객 지원, 콘텐츠 생성, 정보 검색과 같은 애플리케이션에 특히 중요합니다. 이 기술을 평가하도록 설계된 몇 가지 벤치마크가 있으며, 각각은 모델의 역량에 대한 포괄적인 평가에 기여하는 고유한 속성을 가지고 있습니다.

RACE(시험에서 얻은 독해 이해 데이터 세트)

RACE 벤치마크는 12~18세 중국 중고등학생을 대상으로 한 영어 시험에서 수집한 약 28,000개의 지문과 100,000개의 문제를 담고 있습니다. 주어진 본문에서 추출할 질문과 답을 구체적으로 제시함으로써 과제를 더욱 어렵게 만들었습니다.

광범위한 주제와 문제 유형을 포괄하여 철저한 평가를 가능하게 하고 다양한 난이도의 문제를 포함합니다. 또한 RACE의 문제는 인간의 독해 능력을 테스트하기 위해 특별히 설계되었으며 도메인 전문가가 작성합니다.

그러나 벤치마크에는 몇 가지 단점이 있습니다. 중국 교육 자료를 기반으로 개발되었기 때문에 글로벌 맥락을 반영하지 않는 문화적 편견을 도입하기 쉽습니다. 또한 일부 문제의 높은 난이도는 실제로 일반적인 현실 세계 작업을 대표하지 않습니다. 따라서 성과 평가가 그렇게 정확하지 않을 수 있습니다.

DROP (단락에 대한 이산 추론)

또 다른 중요한 접근법은 DROP(Discrete Reasoning Over Paragraphs)로, 모델이 단락에 대한 이산 추론을 수행하도록 도전합니다. LLM의 추론 능력을 테스트하기 위한 96,000개의 질문이 있으며, 질문은 Wikipedia에서 추출되어 Amazon Mechanical Turk에서 크라우드소싱되었습니다. DROP 문제는 종종 모델이 구절에 분산된 정보를 기반으로 덧셈, 뺄셈, 비교와 같은 수학적 연산을 수행하도록 호출합니다.

이 문제는 도전적입니다. LLM은 구절에서 여러 숫자를 찾아 더하거나 빼서 최종 답을 얻어야 합니다. GPT-4와 Palm과 같은 큰 모델은 80%와 85%를 달성하는 반면, 인간은 DROP 데이터 세트에서 96%를 달성합니다.

상식적 벤치마크

언어 모델에서 상식을 테스트하는 것은 흥미로운 일이지만, 또한 중요한 이유는 모델이 우리 인간의 추론과 일치하는 판단과 추론을 내리는 능력을 평가하기 때문입니다. 실제 경험을 통해 포괄적인 세계 모델을 개발하는 우리와 달리 언어 모델은 실제로 맥락을 본질적으로 이해하지 못한 채 방대한 데이터 세트에 대해 학습합니다. 즉, 모델은 일상 상황에 대한 직관적 이해, 논리적 추론 및 실용적 지식이 필요한 작업에 어려움을 겪습니다. 이는 견고하고 신뢰할 수 있는 AI 애플리케이션에 매우 중요합니다.

HellaSwag(더 어려운 엔딩, 더 긴 맥락, 적대적인 세대가 있는 상황에서의 낮은 샷 활동)

Hellaswag는 워싱턴 대학교와 Allen Institute for Artificial Intelligence의 Rowan Zellers와 동료들이 개발했습니다. 주어진 시나리오의 가장 그럴듯한 연속을 예측하는 모델의 능력을 테스트하도록 설계되었습니다. 이 벤치마크는 일련의 판별자가 반복적으로 적대적인 기계 생성 오답을 선택하는 적대적 필터링(AF)을 사용하여 구성됩니다. 이 방법은 인간에게는 사소한 예가 있는 데이터 세트를 생성하지만 모델에게는 도전적인 데이터 세트를 생성하여 “골디락스” 난이도 구역을 만듭니다.

Hellaswag는 이전 모델에 도전적인 반면, GPT-4와 같은 최첨단 모델은 인간의 정확도에 가까운 성능 수준을 달성하여 이 분야에서 상당한 진전을 보였습니다. 그러나 이러한 결과는 AI 역량의 발전에 발맞추기 위해 지속적으로 진화하는 벤치마크가 필요함을 시사합니다.

오픈북

Openbook 데이터 세트는 5957개의 초등 과학 객관식 문제로 구성되어 있습니다. 이 문제는 오픈북 시험에서 수집되어 해당 주제에 대한 인간의 이해를 평가하도록 개발되었습니다.

Openbook 벤치마크는 정보 검색 이상의 추론 능력을 요구합니다. GPT-4는 현재 95.9%의 최고 정확도를 달성합니다.

OpenbookQA는 오픈북 시험을 모델로 했으며 5,957개의 객관식 초등 과학 문제로 구성되어 있습니다. 이 문제는 1,326개의 핵심 과학 사실과 새로운 상황에 대한 적용에 대한 이해를 조사하도록 설계되었습니다.

Hellaswag와 유사하게, 이전 모델은 OpenbookQA를 도전적인 것으로 여겼지만, GPT-4와 같은 최신 모델은 인간에 가까운 성능 수준을 달성했습니다. 이러한 진전은 AI 이해의 경계를 계속 넓히기 위해 훨씬 더 복잡하고 미묘한 벤치마크를 개발하는 것의 중요성을 강조합니다.

LLM 성과 평가에 벤치마크만으로 충분할까?

네, LLM 성과를 평가하는 데 표준화된 접근 방식을 제공하지만 오해의 소지가 있을 수도 있습니다. Large Model Systems Organization은 좋은 LLM 벤치마크는 확장 가능해야 하고, 비교적 적은 수의 시행으로 새로운 모델을 평가할 수 있어야 하며, 모든 모델에 대해 고유한 순위를 제공해야 한다고 말합니다. 하지만 이것만으로는 충분하지 않을 수 있는 이유가 있습니다. 몇 가지를 소개합니다.

벤치마크 누출

이는 일반적인 상황이며, 훈련 데이터가 테스트 데이터와 겹치면서 잘못된 평가를 내릴 때 발생합니다. 모델이 훈련 중에 이미 몇 가지 테스트 문제를 접한 경우, 그 결과는 실제 역량을 정확하게 반영하지 못할 수 있습니다. 그러나 이상적인 벤치마크는 암기를 최소화하고 실제 상황을 반영해야 합니다.

평가 편향

LLM 벤치마크 리더보드는 다양한 작업에서 LLM의 성과를 비교하는 데 사용됩니다. 그러나 모델 비교를 위해 이러한 리더보드에 의존하는 것은 다음과 같습니다. 오해의 소지가 있는. 질문 순서를 바꾸는 것과 같은 벤치마크 테스트의 간단한 변경은 모델의 순위를 최대 8단계까지 바꿀 수 있습니다. 또한 LLM은 채점 방법에 따라 다르게 수행될 수 있으므로 평가 편향을 고려하는 것의 중요성을 강조합니다.

개방성

실제 LLM 상호작용에는 원하는 AI 출력을 생성하기 위한 프롬프트를 설계하는 것이 포함됩니다. LLM 출력은 프롬프트의 효과성에 따라 달라지며 벤치마크는 LLM의 컨텍스트 인식을 테스트하도록 설계되었습니다. 벤치마크는 LLM의 컨텍스트 인식을 테스트하도록 설계되었지만 항상 실제 성능으로 직접 변환되는 것은 아닙니다. 예를 들어 LSAT와 같은 벤치마크 데이터 세트에서 100% 점수를 달성한 모델은 실제 응용 프로그램에서 동일한 수준의 정확성을 보장하지 않습니다. 이는 LLM 평가에서 실제 작업의 개방형 특성을 고려하는 것의 중요성을 강조합니다.

강력한 LLM을 위한 효과적인 평가

그러니 이제 벤치마크가 항상 최선의 선택은 아니라는 것을 알게 되었습니다. 벤치마크가 항상 모든 문제를 일반화할 수는 없기 때문입니다. 하지만 다른 방법도 있습니다.

사용자 정의 벤치마크

이러한 벤치마크는 작업별 시나리오에서 특정 동작과 기능을 테스트하는 데 적합합니다. 예를 들어 LLM이 의료 담당자를 위해 설계된 경우 의료 환경에서 수집된 데이터 세트는 실제 시나리오를 효과적으로 나타냅니다. 이러한 사용자 지정 벤치마크는 도메인별 언어 이해, 성능 및 고유한 맥락적 요구 사항에 초점을 맞출 수 있습니다. 벤치마크를 가능한 실제 시나리오와 일치시키면 LLM이 전반적으로 우수한 성능을 발휘하고 의도한 특정 작업에서 탁월한 성과를 낼 수 있습니다. 이를 통해 모델 기능의 격차나 약점을 일찍 식별하고 해결하는 데 도움이 될 수 있습니다.

데이터 유출 탐지 파이프라인

평가에서 무결성을 “보여주길” 원한다면 데이터 누출 없는 벤치마크 파이프라인을 갖는 것이 매우 중요합니다. 데이터 누출은 벤치마크 데이터가 모델의 사전 학습 코퍼스에 포함되어 인위적으로 높은 성능 점수가 발생할 때 발생합니다. 이를 방지하려면 벤치마크를 사전 학습 데이터와 교차 참조해야 합니다. 또한 이전에 본 정보를 피하기 위한 단계도 있습니다. 여기에는 모델의 학습 파이프라인과 별도로 보관되는 독점적 또는 새로 큐레이팅된 데이터 세트를 사용하는 것이 포함될 수 있습니다. 이렇게 하면 모델의 일반화 능력을 잘 반영하는 성능 지표를 얻을 수 있습니다.

인간의 평가

자동화된 메트릭만으로는 모델 성능의 전체 스펙트럼을 포착할 수 없습니다. 특히 언어 이해와 생성의 매우 미묘하고 주관적인 측면과 관련된 경우에는 더욱 그렇습니다. 여기서는 인간 평가가 훨씬 더 나은 평가를 제공합니다.

전문가 고용 특히 특정 분야에 대한 자세하고 신뢰할 수 있는 평가를 제공할 수 있습니다.
크라우드소싱Amazon Mechanical Turk와 같은 플랫폼을 사용하면 다양한 인간의 판단을 빠르고 적은 비용으로 수집할 수 있습니다.
커뮤니티 피드백: 사용자가 투표하고 모델을 비교할 수 있는 LMSYS 리더보드 아레나와 같은 플랫폼을 사용하면 통찰력이 한층 더 높아집니다. 예를 들어 LMSYS Chatbot Arena Hard는 직접적인 사용자 상호 작용과 투표를 통해 상위 모델 간의 미묘한 차이점을 강조하는 데 특히 효과적입니다.

결론

평가와 벤치마킹이 없다면 LLM이 실제 업무를 처리하는 능력이 우리가 생각하는 만큼 정확하고 적용 가능한지 알 방법이 없습니다. 하지만 제가 말했듯이 벤치마크는 이를 확인하는 완벽한 방법이 아니며 LLM의 성과에 격차를 초래할 수 있습니다. 또한 이는 업무에 진정으로 견고한 LLM의 개발을 늦출 수도 있습니다.

이상적인 세상에서는 이렇게 해야 합니다. LLM은 사용자 질의를 이해하고, 프롬프트에서 오류를 식별하고, 지시에 따라 작업을 완료하고, 신뢰할 수 있는 출력을 생성합니다. 결과는 이미 훌륭하지만 이상적이지는 않습니다. 여기서 작업별 벤치마크가 인간 평가 및 벤치마크 누출 감지와 마찬가지로 매우 유용하다는 것이 입증됩니다. 이를 사용함으로써 실제로 강력한 LLM을 생산할 수 있는 기회를 얻습니다.

게시물 LLM을 위한 벤치마크 처음 등장 유나이트.AI.

News Week
Magazine PRO

Company

LLM을 위한 벤치마크

LLM 평가란 무엇인가요?

벤치마크

“지식” 벤치마크

MMLU(다중모달 언어 이해)

GPQA(대학원 수준 Google 검증 Q&A 벤치마크)

코드 벤치마크

인간평가

MBPP(대부분 기본 파이썬 프로그래밍)

수학 벤치마크

GSM8K: 인기 있는 수학 벤치마크

수학 데이터 세트: 포괄적 대안

독해 이해 벤치마크

RACE(시험에서 얻은 독해 이해 데이터 세트)

DROP (단락에 대한 이산 추론)

상식적 벤치마크

HellaSwag(더 어려운 엔딩, 더 긴 맥락, 적대적인 세대가 있는 상황에서의 낮은 샷 활동)

오픈북

LLM 성과 평가에 벤치마크만으로 충분할까?

벤치마크 누출

평가 편향

개방성

강력한 LLM을 위한 효과적인 평가

사용자 정의 벤치마크

데이터 유출 탐지 파이프라인

인간의 평가

결론

LEAVE A REPLY Cancel reply

About us

Company

The latest

RoboBusiness 2025에서 일어나는 모든 일에 대한 가이드

HavocAI, 자율 해양 시스템 확장을 위해 8,500만 달러 확보

차세대 AI에는 액체 냉각이 필요합니다

News WeekMagazine PRO

Company

관련된 글:

LLM 평가란 무엇인가요?

벤치마크

“지식” 벤치마크

MMLU(다중모달 언어 이해)

GPQA(대학원 수준 Google 검증 Q&A 벤치마크)

코드 벤치마크

인간평가

MBPP(대부분 기본 파이썬 프로그래밍)

수학 벤치마크

GSM8K: 인기 있는 수학 벤치마크

수학 데이터 세트: 포괄적 대안

독해 이해 벤치마크

RACE(시험에서 얻은 독해 이해 데이터 세트)

DROP (단락에 대한 이산 추론)

상식적 벤치마크

HellaSwag(더 어려운 엔딩, 더 긴 맥락, 적대적인 세대가 있는 상황에서의 낮은 샷 활동)

오픈북

LLM 성과 평가에 벤치마크만으로 충분할까?

벤치마크 누출

평가 편향

개방성

강력한 LLM을 위한 효과적인 평가

사용자 정의 벤치마크

데이터 유출 탐지 파이프라인

인간의 평가

결론

관련된 글:

LEAVE A REPLY Cancel reply

About us

Company

The latest

RoboBusiness 2025에서 일어나는 모든 일에 대한 가이드

HavocAI, 자율 해양 시스템 확장을 위해 8,500만 달러 확보

차세대 AI에는 액체 냉각이 필요합니다

News Week
Magazine PRO