훈련 대규모 언어 모델(LLM) 대부분의 조직에서는 접근이 불가능해졌습니다. 수백만 달러에 달하는 비용과 슈퍼컴퓨터를 힘들게 만드는 컴퓨팅 요구 사항으로 인해 AI 개발은 거대 기술 기업의 문 뒤에 갇혀 있었습니다. 그러나 구글은 너무나 단순한 접근 방식으로 이 이야기를 뒤집어 놓았습니다. 왜 아무도 더 일찍 이 문제를 생각하지 않았는지 궁금할 것입니다. 즉, 더 작은 AI 모델을 교사로 사용하는 것입니다.
SALT 작동 방식: AI 모델 훈련을 위한 새로운 접근 방식
최근 ‘라는 제목의 연구 논문에서작은 도움이 큰 도움이 됩니다: 소규모 LM을 활용한 효율적인 LLM 교육,” Google Research와 DeepMind는 SALT(Small model Aided Large model Training)를 도입했습니다. 이는 LLM 교육에 대한 기존 접근 방식에 도전하는 새로운 방법입니다.
이 연구가 왜 중요한가요? 현재 대규모 AI 모델을 훈련하는 것은 누군가에게 특정 주제에 대해 알아야 할 모든 것을 한꺼번에 가르치려는 것과 같습니다. 이는 비효율적이고 비용이 많이 들며 대규모 컴퓨팅 리소스를 갖춘 조직으로 제한되는 경우가 많습니다. SALT는 혁신적이고 실용적인 2단계 교육 과정을 도입하는 다른 길을 택합니다.
SALT의 실제 작동 방식을 분석하면 다음과 같습니다.
1단계: 지식 증류
- 에이 더 작은 언어 모델(SLM) 교사 역할을 하며 자신의 이해를 더 큰 모델과 공유합니다.
- 더 작은 모델은 연구자들이 “소프트 라벨”이라고 부르는 것을 통해 “학습된 지식”을 전달하는 데 중점을 둡니다.
- 학생이 고급 주제로 넘어가기 전에 기본 개념을 다루는 조교처럼 생각하십시오.
- 이 단계는 학습의 “쉬운” 영역(더 작은 모델이 강한 예측 신뢰도를 갖는 영역)에서 특히 효과적입니다.
2단계: 자기 지도 학습
- 대규모 모델이 독립적 학습으로 전환됩니다.
- 복잡한 패턴과 도전적인 작업을 마스터하는 데 중점을 둡니다.
- 이는 모델이 더 작은 “교사”가 제공할 수 있는 것 이상의 기능을 개발하는 곳입니다.
- 단계 간 전환은 증류 손실 중량의 선형 감쇠 및 선형 비율 감쇠를 포함하여 신중하게 설계된 전략을 사용합니다.
비기술적인 용어로 말하자면,더 작은 AI 모델은 훈련 초기 단계에서 더 큰 모델을 안내하는 유용한 교사와 같다고 상상해 보세요. 이 교사는 답변과 함께 추가 정보를 제공하여 각 답변에 대해 얼마나 확신하는지를 나타냅니다. “소프트 라벨”이라고 알려진 이 추가 정보는 더 큰 모델이 더 빠르고 효과적으로 학습하는 데 도움이 됩니다.
- 선형 감쇠: 마치 튜터의 목소리 볼륨을 천천히 낮추는 것과 같습니다. 각 단계마다 교사의 지침이 덜 눈에 띄게 되므로 더 큰 모델이 원시 데이터 자체에서 학습하는 데 더 집중할 수 있습니다.
- 선형 비율 감쇠: 이는 교사의 조언과 실제 작업 사이의 균형을 조정하는 것과 같습니다. 훈련이 진행됨에 따라 강조점은 원래 작업 쪽으로 더 많이 이동하는 반면 교사의 입력은 덜 지배적입니다.
결과는 설득력이 있습니다. Google 연구원들이 15억 개의 매개변수 SLM을 사용하여 SALT를 테스트하여 28억 개의 매개변수 LLM을 훈련시켰을 때 더미 데이터세트그들은 다음을 보았습니다:
- 기존 방법에 비해 훈련 시간 28% 단축
- 미세 조정 후 성능이 크게 향상되었습니다.
- 수학 문제 정확도가 34.87%로 뛰어올랐습니다(기준선 31.84%와 비교).
- 독해력은 67% 정확도에 도달했습니다(63.7%에서 증가).
그러나 SALT를 진정으로 혁신적으로 만드는 것은 이론적 프레임워크입니다. 연구원들은 “약한” 교사 모델이라도 소위 “유리한 편향-분산 균형”을 달성함으로써 학생의 성과를 향상시킬 수 있다는 사실을 발견했습니다. 간단히 말해서, 작은 모델은 큰 모델이 기본 패턴을 더 효율적으로 학습하도록 도와 고급 학습을 위한 더 강력한 기반을 마련합니다.
SALT가 AI 개발 경쟁의 장을 재구성할 수 있는 이유
클라우드 컴퓨팅이 변화했을 때 누가 기술 회사를 시작할 수 있었는지 기억하십니까? SALT는 AI 개발에도 동일한 작업을 수행할 수 있습니다.
저는 수년 동안 AI 교육 혁신을 지켜봐 왔으며 대부분의 혁신은 주로 거대 기술 기업에 도움이 되었습니다. 하지만 SALT는 다릅니다.
이것이 미래에 의미하는 바는 다음과 같습니다.
자원이 제한된 조직의 경우:
- 유능한 AI 모델을 개발하기 위해 더 이상 대규모 컴퓨팅 인프라가 필요하지 않을 수 있습니다.
- 소규모 연구실과 기업에서는 맞춤형 모델 개발을 실험할 수 있습니다.
- 학습 시간 28% 감소는 컴퓨팅 비용 절감으로 직접 이어집니다.
- 더 중요한 것은 적당한 컴퓨팅 리소스로 시작해도 여전히 전문적인 결과를 얻을 수 있다는 것입니다.
AI 개발 환경의 경우:
- 더 많은 플레이어가 현장에 진입할 수 있어 더욱 다양하고 전문화된 AI 솔루션이 탄생할 수 있습니다.
- 대학과 연구 기관은 기존 자원을 사용하여 더 많은 실험을 실행할 수 있습니다.
- AI 연구 진입 장벽 크게 낮아져
- 이전에는 AI 개발을 감당할 수 없었던 분야에서 새로운 애플리케이션을 보게 될 수도 있습니다.
이것이 미래에 의미하는 바
작은 모델을 교사로 사용함으로써 우리는 AI 훈련을 더욱 효율적으로 만들 뿐만 아니라 AI 개발에 참여하는 사람을 근본적으로 변화시키고 있습니다. 그 의미는 단순한 기술적 개선 그 이상입니다.
명심해야 할 주요 사항:
- 28%의 훈련 시간 단축은 AI 프로젝트를 시작하는 것과 불가능하다고 생각하는 것의 차이입니다.
- 성능 향상(수학 34.87%, 읽기 작업 67%)은 접근성이 항상 품질 저하를 의미하지는 않음을 보여줍니다.
- SALT의 접근 방식은 때로는 컴퓨팅 성능을 더 추가하는 것보다 기본 사항을 다시 생각하는 것에서 최고의 솔루션이 나온다는 것을 증명합니다.
주의할 점:
- 맞춤형 AI 모델 개발을 시작하는 소규모 조직을 주시하세요.
- 이전에는 AI 개발을 감당할 수 없었던 분야의 새로운 애플리케이션을 살펴보세요.
- 특수 작업에 더 작은 모델을 사용하는 방법에 대한 혁신을 찾아보세요
기억하다: SALT의 진정한 가치는 AI에서 혁신을 이룰 수 있는 사람을 어떻게 바꿀 수 있는지에 있습니다. 연구실을 운영하든, 기술팀을 관리하든, AI 개발에 관심이 있든, 이는 차세대 아이디어를 실현할 수 있는 일종의 혁신입니다.
어쩌면 당신이 도달할 수 없다고 생각했던 AI 프로젝트에 대해 생각해 보기 시작할 수도 있습니다. 상상했던 것보다 더 가능성이 높을 수도 있습니다.
게시물 Google은 SLM을 교사로 사용하여 AI 교육을 28% 더 빠르게 만들고 있습니다. 처음 등장한 Unite.AI.