AI 모델은 에세이와 다른 유형의 텍스트를 쉽게 생성할 수 있습니다. 그러나 논리적 추론을 포함하는 경향이 있는 수학 문제를 해결하는 데는 그다지 능숙하지 않습니다. 이는 대부분의 현재 AI 시스템의 기능을 넘어서는 것입니다.
하지만 마침내 바뀔지도 모릅니다. Google DeepMind는 고급 추론을 포함하는 복잡한 수학 문제를 풀기 위해 두 개의 전문 AI 시스템을 훈련했다고 말합니다. AlphaProof와 AlphaGeometry 2라는 시스템은 함께 작동하여 올해의 국제 수학 올림피아드(IMO)에서 6개 문제 중 4개를 성공적으로 풀었습니다. 이 대회는 고등학생을 위한 권위 있는 대회입니다. 그들은 은메달에 해당하는 것을 획득했습니다.
어떤 AI 시스템도 이런 종류의 문제에서 이렇게 높은 성공률을 달성한 것은 처음입니다. 이 프로젝트에 참여한 Google DeepMind의 연구 부사장인 Pushmeet Kohli는 “이것은 머신 러닝과 AI 분야에서 큰 진전입니다.”라고 말합니다. “지금까지 이 수준의 일반성으로 이 성공률로 문제를 해결할 수 있는 시스템은 개발되지 않았습니다.”
AI 시스템이 고급 추론을 포함하는 수학 문제를 풀기 어려운 데에는 몇 가지 이유가 있습니다. 이러한 유형의 문제는 종종 추상화를 형성하고 이를 활용해야 합니다. 또한 복잡한 계층적 계획과 하위 목표 설정, 역추적, 새로운 경로 시도가 필요합니다. 이 모든 것이 AI에게 도전입니다.
“답을 확인할 방법(예: 공식 언어)이 있는 경우 수학 모델을 훈련하는 것이 더 쉬운 경우가 많지만, 온라인에서 공식 수학 데이터는 자유형 자연어(비공식 언어)에 비해 비교적 적습니다.” 케임브리지 대학교의 수학과 AI 전문 연구원이지만 이 프로젝트에는 참여하지 않은 케이티 콜린스의 말입니다.
이러한 격차를 메우는 것이 Google DeepMind가 수학적 진술을 공식 프로그래밍 언어 Lean에서 증명하도록 스스로를 훈련시키는 강화 학습 기반 시스템인 AlphaProof를 만드는 목표였습니다. 핵심은 DeepMind의 Gemini AI 버전으로, 자연스럽고 비공식적인 언어로 표현된 수학 문제를 AI가 처리하기 쉬운 공식 진술로 자동 번역하도록 미세 조정되었습니다. 이를 통해 다양한 난이도의 공식 수학 문제가 대량으로 라이브러리되었습니다.
에든버러 대학의 하이브리드 AI 강사인 웬다 리는 데이터를 공식 언어로 번역하는 과정을 자동화하는 것은 수학 커뮤니티에 있어 큰 진전이라고 말합니다. 그녀는 이 연구에 대한 심사를 맡았지만 이 프로젝트에는 참여하지 않았습니다.
“그들이 이 증명 시스템을 공식화할 수 있다면 우리는 출판된 결과의 정확성에 대해 훨씬 더 큰 확신을 가질 수 있으며, 더욱 협력적으로 될 수도 있습니다.”라고 그는 덧붙였습니다.
Gemini 모델은 다음과 함께 작동합니다. 알파제로—Google DeepMind가 바둑과 체스와 같은 게임을 마스터하도록 훈련시킨 강화 학습 모델—수백만 개의 수학 문제를 증명하거나 반증합니다. 성공적으로 해결한 문제가 많을수록 AlphaProof는 점점 더 복잡해지는 문제를 해결하는 데 더 능숙해졌습니다.
AlphaProof는 광범위한 수학 주제에 걸친 문제를 해결하도록 훈련되었지만 AlphaGeometry 2는 개선된 버전입니다. 체계 Google DeepMind가 1월에 발표한 것은 물체의 움직임과 각도, 비율, 거리를 포함하는 방정식과 관련된 문제를 해결하도록 최적화되었습니다. 이전 모델보다 훨씬 더 많은 합성 데이터로 훈련되었기 때문에 훨씬 더 어려운 기하학 문제를 처리할 수 있었습니다.
시스템의 역량을 테스트하기 위해 Google DeepMind 연구원들은 올해 IMO에서 경쟁하는 인간에게 주어진 6가지 문제를 풀고 답이 옳다는 것을 증명하는 과제를 부여했습니다. AlphaProof는 대수 문제 2개와 수론 문제 1개를 풀었는데, 그 중 하나는 대회에서 가장 어려운 문제였습니다. AlphaGeometry 2는 기하학 문제를 성공적으로 풀었지만, 조합론(사물을 세고 배열하는 데 초점을 맞춘 수학 분야)에 대한 문제 2개는 풀리지 않은 채로 남았습니다.
AlphaProof 팀의 연구 엔지니어인 알렉스 데이비스는 “일반적으로 AlphaProof는 조합론보다 대수와 수론에서 훨씬 더 나은 성과를 보입니다.”라고 말합니다. “우리는 여전히 그 이유를 이해하기 위해 노력하고 있으며, 이를 통해 시스템을 개선할 수 있기를 바랍니다.”
두 명의 유명한 수학자, 팀 고워스와 조셉 마이어스가 시스템의 제출물을 검토했습니다. 그들은 4개의 정답에 각각 만점(7점 만점)을 주었고, 시스템은 최대 42점 중 총 28점을 받았습니다. 이 점수를 받은 인간 참가자는 은메달을 받았고 금메달은 놓쳤으며, 금메달의 기준은 29점에서 시작합니다.
AI 시스템이 IMO 문제에서 메달 수준의 성과를 달성한 것은 이번이 처음이다. “수학자로서, 저는 이것이 매우 인상적이고, 이전에 가능했던 것보다 상당한 도약이라고 생각합니다.” 고워스가 기자 회견에서 말했다.
마이어스는 이 시스템의 수학 답변이 AI가 이전에 달성할 수 있었던 것보다 상당히 발전했다는 데 동의했습니다. 그는 “사물이 어떻게 확장될지, 더 빠르게 만들 수 있을지, 그리고 다른 종류의 수학으로 확장될 수 있을지 보는 것은 흥미로울 것입니다.”라고 말했습니다.
더 어려운 수학 문제를 해결할 수 있는 AI 시스템을 만드는 것은 흥미로운 인간-AI 협업의 길을 열어 수학자들이 새로운 종류의 문제를 해결하고 발명하는 데 도움이 될 수 있다고 콜린스는 말합니다. 이는 차례로 우리 인간이 수학을 다루는 방법에 대해 더 많이 배우는 데 도움이 될 수 있습니다.
그녀는 “인간이 복잡한 수학 문제를 어떻게 푸는지에 대해 우리는 아직 모르는 것이 많다”고 말한다.