수학 LLM의 실패와 해결 방법

12월 6, 2024

186

수학은 AI 모델에 항상 중요한 과제를 제기해 왔습니다. 수학을 마스터하려면 복잡한 추론 기술이 필요하며 AI의 경우 이 작업은 결코 간단하지 않습니다. 직업적, 개인적, 학문적 성공을 위한 수학적 능력의 중요성을 고려할 때 이는 큰 문제를 야기합니다.

뛰어난 능력에도 불구하고 대규모 언어 모델(LLM)은 종종 복잡한 수학 문제로 어려움을 겪고, 고급 추론 기술을 요구하는 기하학과 같은. 이는 우리에게 중요한 질문을 던지게 합니다. AI 모델의 수학적 능력 중 얼마나 많은 부분이 실제 추론에서 비롯됩니까? 아니면 단순한 훈련 데이터를 기억하는 데서 비롯됩니까?

Apple의 최근 조사 결과 초등학교 수학 단어 문제에 초점을 맞춘 경우에도 가장 정교한 모델이 “추론”에 의해 완전히 구동되지는 않음을 보여줍니다.

한 단계 더 나아가 MathGPT.ai의 R&D 팀은 가장 개선이 필요한 대수학부터 미적분학 수준의 수학 영역에 대해 새로운 시각을 제시했습니다.

이 데이터는 문제 상황과 언어의 변화가 OpenAI의 최신 o1-preview 및 o1-mini 모델을 포함하여 다양한 LLM에서 모델 성능에 어떤 영향을 미치는지 탐구했습니다. 연구 결과에 따르면 우려스러운 추세가 나타났습니다. 문제가 LLM 교육 데이터에서 사용할 수 있는 원래 질문에서 벗어나면서 정확성이 지속적으로 감소했으며, 초등학교 수학 수준보다 더 어려운 수학적 벤치마크에서 성과가 급격히 떨어졌습니다.

회상 대 추론 딜레마

조사는 세 가지 핵심 요소에 초점을 맞췄습니다.

초등학교 수학보다 더 어려운 수학 벤치마크 사용
테스트 문제에 극도로 근접한 “1회 프롬프트” 탐색
동일한 문제에 대한 n번의 시도에 대해 “n개 중 최고” 전략을 구현합니다. 즉, 추론 시 통계적 이상을 제거하기 위해 사실상 다수결이 투표하는 것입니다.

결과는 흥미롭기도 하고 우려스럽기도 했습니다. 문제 변형의 경계가 넓어졌고, 이는 수학 방정식이 더 복잡해짐에 따라 AI 모델 성능이 지속적으로 저하되는 것을 보여주었습니다.

MATH 데이터세트 챌린지

그만큼 수학 데이터세트 8,500개의 언어적으로 다양한 초등학교 수준의 문제가 포함된 Grade School Math 8K 데이터세트와는 달리 어려운 고등학교 수준의 문제로 알려진 이 솔루션이 배포되었습니다. MATH 데이터세트는 기초 대수학부터 정수론까지 다양한 난이도에 걸쳐 모델 성능을 조사하기 위해 더욱 까다로운 고등학교 수준의 질문을 제시합니다. 이 선택을 통해 MathGPT.ai는 다양한 난이도 수준에서 모델 성능을 더 잘 검사할 수 있었습니다.

테스트에서는 숫자 값과 최종 답변이 변경되지 않은 채 언어, 변수 및 문제의 맥락을 다양하게 변경했습니다. 예를 들어, “개 산책” 시나리오는 “식기세척기” 문제로 변환될 수 있습니다. 이 방법은 모델의 추론 능력에 여전히 도전하면서 MATH 데이터 세트의 복잡성 증가를 완화하는 데 도움이 되었습니다.

결과 공개

결과는 놀라웠습니다. 가장 발전된 모델조차도 훈련 데이터에서 직면했을 가능성이 있는 다양한 문제에 직면할 때 어려움을 겪었습니다. 예를 들어, o1-mini 모델의 정확도는 원래 질문의 93.66%에서 가장 어려운 변형 질문의 88.54%로 떨어졌습니다. o1-preview 모델은 91.22%에서 82.93%로 감소하는 유사한 감소를 경험했습니다. 이는 견고성의 심각한 격차를 부각시킬 만큼 급격한 감소였습니다.

이러한 연구 결과는 Apple의 이전 연구와 일치하고 이를 기반으로 하며, 문제가 더욱 복잡해지고 패턴 인식보다는 더 깊은 이해가 필요할수록 AI의 수학적 추론의 한계가 더욱 분명해진다는 것을 보여줍니다.

앞으로 나아갈 길

LLM 추론의 한계를 계속해서 넓혀가면서 LLM의 놀라운 잠재력과 현재의 한계를 모두 인식하는 것이 중요합니다. 새로운 연구는 보다 강력하고 일반화 가능한 문제 해결 기술을 달성하기 위해 패턴 인식을 넘어설 수 있는 AI 모델 개발에 대한 지속적인 혁신의 필요성을 강조합니다.

이는 특히 AI가 교실에서 강사의 보조 수단으로 더 많이 사용되고 있는 고등 교육 분야에서 중요한 시기에 발생하며, 학교에서는 강좌에 준비가 되어 있지 않은 수학 학생들 사이에서 높은 실패율이 계속해서 나타나고 있습니다.

AI에서 인간과 같은 인지 능력이나 일반 지능을 달성하려면 기술 발전뿐만 아니라 회상과 실제 추론 사이의 격차를 해소하는 방법에 대한 미묘한 이해도 필요합니다.

우리가 이 길에서 성공한다면 수백만 명의 학생은 물론 전문가의 삶도 완전히 새로운 방향으로 전환할 수 있다고 확신합니다.

게시물 수학 LLM의 실패와 해결 방법 처음 등장한 Unite.AI.

News Week
Magazine PRO

Company

수학 LLM의 실패와 해결 방법

회상 대 추론 딜레마

MATH 데이터세트 챌린지

결과 공개

앞으로 나아갈 길

LEAVE A REPLY Cancel reply

About us

Company

The latest

RoboBusiness 2025 2일차 가이드

레이저로 칩을 식힐 수 있다?!?!

Nokia Bell Labs, 새로운 뉴저지 본사 착공

News WeekMagazine PRO

Company

관련된 글:

회상 대 추론 딜레마

MATH 데이터세트 챌린지

결과 공개

앞으로 나아갈 길

관련된 글:

LEAVE A REPLY Cancel reply

About us

Company

The latest

RoboBusiness 2025 2일차 가이드

레이저로 칩을 식힐 수 있다?!?!

Nokia Bell Labs, 새로운 뉴저지 본사 착공

News Week
Magazine PRO