Deepseek-Prover-V2 : 비공식적 인 수학적 추론과 공식적인 수학적 추론의 격차를 해소

0
17
deepseek-prover-v2-:-비공식적-인-수학적-추론과-공식적인-수학적-추론의-격차를-해소
Deepseek-Prover-V2 : 비공식적 인 수학적 추론과 공식적인 수학적 추론의 격차를 해소

하는 동안 Deepseek-R1 비공식적 인 추론에서 AI의 능력을 크게 발전 시켰으며, 공식적인 수학적 추론은 AI에 대한 도전적인 과제로 남아 있습니다. 이는 주로 검증 가능한 수학적 증거를 생성하려면 깊은 개념적 이해와 정확한 단계별 논리적 인 주장을 구성하는 능력이 모두 필요하기 때문입니다. 그러나 최근 DeepSeek-AI의 연구원들이 도입 한 것처럼이 방향으로 상당한 발전이 이루어집니다. Deepseek-Prover-V2수학적 직관을 엄격하고 검증 가능한 증거로 변환 할 수있는 오픈 소스 AI 모델. 이 기사는 Deepseek-Prover-V2의 세부 사항을 조사하고 미래의 과학적 발견에 대한 잠재적 영향을 고려할 것입니다.

공식적인 수학적 추론의 도전

수학자들은 종종 직관, 휴리스틱 및 높은 수준의 추론을 사용하여 문제를 해결합니다. 이 접근법을 사용하면 명백해 보이는 단계를 건너 뛰거나 필요에 충분한 근사치에 의존 할 수 있습니다. 그러나 공식 정리는 다른 접근법을 요구합니다. 모든 단계는 모호함없이 명시 적으로 명시되고 논리적으로 정당화되면서 완전한 정밀도가 필요합니다.

LLM (Large Language Model)의 최근 발전에 따르면 자연어 추론을 사용하여 복잡한 경쟁 수준의 수학 문제를 해결할 수 있습니다. 그러나 이러한 발전에도 불구하고 LLM은 여전히 ​​직관적 인 추론을 기계가 확인할 수있는 공식적인 증거로 전환하는 데 어려움을 겪고 있습니다. 비공식적 추론에는 종종 공식 시스템을 확인할 수없는 바로 가기와 생략 된 단계가 포함되기 때문입니다.

DeepSeek-Prover-V2는 비공식적이고 공식적인 추론의 강점을 결합 하여이 문제를 해결합니다. 복잡한 문제를 더 작고 관리하기 쉬운 부품으로 분류하면서 공식적인 검증에 필요한 정밀도를 유지합니다. 이 접근법은 인간 직관과 기계적 증거 사이의 격차를 더 쉽게 연결할 수있게합니다.

정리 증명에 대한 새로운 접근법

기본적으로 DeepSeek-Prover-V2는 비공식적 및 공식적인 추론을 모두 포함하는 고유 한 데이터 처리 파이프 라인을 사용합니다. 파이프 라인은 일반 목적 LLM 인 DeepSeek-V3로 시작하여 자연어의 수학적 문제를 분석하고 더 작은 단계로 분해하며 이러한 단계를 기계가 이해할 수있는 공식 언어로 변환합니다.

시스템은 한 번에 전체 문제를 한 번에 해결하려고 시도하는 대신 최종 증거를 향한 디딤돌 역할을하는 일련의 “하위 검색” – 중간 레마로 분류합니다. 이 접근법은 한 번에 모든 것을 해결하기보다는 관리 가능한 청크를 통해 일함으로써 인간 수학자들이 어려운 문제를 해결하는 방법을 복제합니다.

이 접근법을 특히 혁신적으로 만드는 것은 교육 데이터를 종합하는 방법입니다. 복잡한 문제의 모든 하위 목표가 성공적으로 해결되면 시스템은 이러한 솔루션을 완전한 공식적인 증거로 결합합니다. 그런 다음이 증거는 DeepSeek-V3의 원래 생각한 추론과 짝을 이루어 모델 교육을위한 고품질의 “콜드 스타트”교육 데이터를 만듭니다.

수학적 추론을위한 강화 학습

합성 데이터에 대한 초기 훈련 후 DeepSeek-Prover-V2가 사용합니다 강화 학습 기능을 더욱 향상시킵니다. 이 모델은 솔루션이 올바른지 여부에 대한 피드백을 받고이 피드백을 사용하여 어떤 접근 방식이 가장 잘 작동하는지 알 수 있습니다.

여기서의 과제 중 하나는 생성 된 증거의 구조가 항상 생각의 사슬. 이를 해결하기 위해 연구원들은 훈련 단계에서 구조적 오정렬을 줄이고 최종 증거에 분해 된 모든 레마의 포함을 시행하기 위해 일관성 보상을 포함시켰다. 이 정렬 접근법은 다단계 추론이 필요한 복잡한 정리에 특히 효과적인 것으로 입증되었습니다.

성능 및 실제 기능

확립 된 벤치 마크에서 DeepSeek-Vover-V2의 성능은 뛰어난 기능을 보여줍니다. 이 모델은 인상적인 결과를 얻습니다 미니 프2f- 검정 658 개의 문제 중 49 개를 벤치마킹하고 성공적으로 해결합니다. Putnambench – 유명한 William Lowell Putnam 수학 경쟁의 문제 모음.

아마도 최근에서 15 개의 선택된 문제에 대해 평가했을 때 더 인상적으로 미국 초대 수학 시험 (AIME) 경쟁, 모델은 6 가지 문제를 성공적으로 해결했습니다. 또한 DeepSeek-Prover-V2와 비교하여 Deepseek-V3 다수의 투표를 사용하여 이러한 문제 중 8 개를 해결했습니다. 이것은 공식적인 수학적 추론과 비공식적 수학적 추론 사이의 격차가 LLM에서 빠르게 좁아지고 있음을 시사합니다. 그러나 조합 문제에 대한 모델의 성능은 여전히 ​​개선이 필요하며 향후 연구에 중점을 둘 영역을 강조합니다.

Proverbench : 수학 AI에 대한 새로운 벤치 마크

DeepSeek 연구원들은 또한 LLM의 수학적 문제 해결 기능을 평가하기위한 새로운 벤치 마크 데이터 세트를 도입했습니다. 이 벤치 마크 (이름) 잠언교과서 및 교육 자습서의 문제와 함께 최근 AIME 대회의 15 가지 문제를 포함하여 325 개의 공식화 된 수학적 문제로 구성됩니다. 이러한 문제는 숫자 이론, 대수, 미적분학, 실제 분석 등과 같은 분야를 다룹니다. AIME 문제의 도입은 지식 리콜뿐만 아니라 창의적인 문제 해결이 필요한 문제에 대한 모델을 평가하기 때문에 특히 중요합니다.

오픈 소스 액세스 및 미래의 영향

DeepSeek-Prover-V2는 오픈 소스 가용성으로 흥미로운 기회를 제공합니다. 호스팅 플랫폼 포옹 페이스와 마찬가지로이 모델은 연구원, 교육자 및 개발자를 포함한 광범위한 사용자가 액세스 할 수 있습니다. 더 경량의 7 억 파라미터 버전과 강력한 671 억 파라미터 버전을 통해 DeepSeek 연구원은 다양한 계산 리소스를 가진 사용자가 여전히 이익을 얻을 수 있도록합니다. 이 개방형 액세스는 실험을 장려하고 개발자는 수학적 문제 해결을위한 고급 AI 도구를 만들 수 있도록합니다. 결과적으로,이 모델은 수학적 연구에서 혁신을 주도 할 수있는 잠재력을 가지고 있으며, 연구원들은 복잡한 문제를 해결하고 해당 분야의 새로운 통찰력을 발견 할 수 있도록 힘을 실어줍니다.

AI 및 수학적 연구에 대한 시사점

Deepseek-Prover-V2의 개발은 수학적 연구뿐만 아니라 AI에도 중요한 영향을 미칩니다. 공식적인 증거를 생성하는 모델의 능력은 수학자들이 어려운 정리를 해결하고, 검증 프로세스를 자동화하며, 새로운 추측을 제안하는 데 도움이 될 수 있습니다. 또한, DeepSeek-Prover-V2를 만드는 데 사용되는 기술은 소프트웨어 및 하드웨어 엔지니어링과 같은 엄격한 논리적 추론에 의존하는 다른 분야에서 미래 AI 모델의 개발에 영향을 줄 수 있습니다.

연구원들은 국제 수학적 올림피아드 (IMO) 수준의 문제와 같이 훨씬 더 어려운 문제를 해결하기 위해 모델을 확장하는 것을 목표로합니다. 이것은 수학적 이론을 증명하는 AI의 능력을 더욱 발전시킬 수 있습니다. DeepSeek-Prover-V2와 같은 모델이 계속 발전함에 따라 수학과 AI의 미래를 재정의하여 이론적 연구에서 기술의 실제 응용에 이르기까지 다양한 분야의 발전을 주도 할 수 있습니다.

결론

DeepSeek-Prover-V2는 AI 중심의 수학적 추론에서 중요한 발전입니다. 그것은 비공식적 직관을 공식적인 논리와 결합하여 복잡한 문제를 해결하고 검증 가능한 증거를 생성합니다. 벤치 마크에서 인상적인 성과는 수학자를 지원하고, 증명 검증을 자동화하며, 현장에서 새로운 발견을 주도 할 수있는 잠재력을 보여줍니다. 오픈 소스 모델로서 널리 액세스 할 수 있으며 AI 및 수학 모두에서 혁신 및 새로운 응용 프로그램을위한 흥미로운 가능성을 제공합니다.

게시물 Deepseek-Prover-V2 : 비공식적 인 수학적 추론과 공식적인 수학적 추론의 격차를 해소 먼저 나타났습니다 Unite.ai.