인공지능은 최근 몇 년간 눈부신 발전을 이루었습니다. 한때 기본적인 작업으로 어려움을 겪었던 모델은 이제 수학 문제 해결, 코드 생성, 복잡한 질문에 대한 답변에 탁월합니다. 이러한 발전의 핵심은 다음과 같은 개념입니다. 스케일링 법칙—AI 모델이 성장함에 따라 어떻게 개선되고, 더 많은 데이터에 대해 훈련되고, 더 큰 컴퓨팅 리소스로 구동되는지 설명하는 규칙입니다. 수년 동안 이러한 법률은 더 나은 AI 개발을 위한 청사진 역할을 했습니다.
최근에는 새로운 트렌드가 등장했다. 연구자들은 단순히 모델을 더 크게 만들지 않고도 획기적인 결과를 얻을 수 있는 방법을 찾고 있습니다. 이러한 변화는 기술적 진화 그 이상입니다. 이는 AI의 구축 방식을 재편하여 AI를 더욱 효율적이고, 접근 가능하며, 지속 가능하게 만들고 있습니다.
스케일링 법칙의 기본
스케일링 법칙은 AI 개선을 위한 공식과 같습니다. 그들은 모델의 크기를 늘리거나, 더 많은 데이터를 제공하거나, 더 많은 계산 능력에 대한 액세스 권한을 부여하면 성능이 향상된다고 말합니다. 예를 들어:
모델 크기: 더 많은 매개변수를 가진 더 큰 모델은 더 복잡한 패턴을 학습하고 표현할 수 있습니다. 매개변수는 예측을 가능하게 하는 모델의 조정 가능한 부분입니다.
데이터: 방대하고 다양한 데이터세트에 대한 훈련은 모델이 더 잘 일반화되는 데 도움이 되며 명시적으로 훈련되지 않은 작업을 처리할 수 있게 해줍니다.
컴퓨팅: 더 많은 컴퓨팅 성능을 통해 더 빠르고 효율적인 훈련이 가능해 더 높은 성능을 달성할 수 있습니다.
이 레시피는 10년 넘게 AI의 진화를 주도해 왔습니다. 다음과 같은 초기 신경망 알렉스넷 그리고 레스넷 모델 크기를 늘리면 이미지 인식이 어떻게 향상될 수 있는지 보여주었습니다. 그런 다음 모델이 다음과 같은 변압기가 나왔습니다. GPT-3 그리고 구글의 버트 스케일링을 통해 퓨샷 학습(few-shot learning)과 같은 완전히 새로운 기능을 잠금 해제할 수 있음을 보여주었습니다.
확장의 한계
성공에도 불구하고 확장에는 한계가 있습니다. 모델이 성장함에 따라 더 많은 매개변수를 추가함으로써 얻을 수 있는 개선 효과는 줄어듭니다. ‘라고 알려진 이 현상은수확체감의 법칙,”는 모델 크기를 두 배로 늘려도 성능은 두 배로 늘어나지 않는다는 의미입니다. 대신, 각 증분은 더 작은 이득을 제공합니다. 이는 그러한 모델의 성능을 더욱 향상시키려면 상대적으로 적당한 이익을 얻기 위해 더 많은 리소스가 필요하다는 것을 의미합니다. 이는 실제적인 결과를 가져옵니다. 대규모 모델을 구축하면 상당한 재정적, 환경적 비용이 발생합니다. 대형 모델을 훈련하는 데는 비용이 많이 듭니다. GPT-3의 비용은 알려진 바 있음 수백만 달러 훈련하다. 이러한 비용으로 인해 소규모 조직에서는 최첨단 AI에 접근할 수 없습니다. 대규모 모델을 훈련하는 데는 막대한 양의 에너지가 소비됩니다. 에이 공부하다 하나의 대형 모델을 훈련시키면 평생 동안 자동차 5대만큼 많은 탄소를 배출할 수 있다고 추정했습니다.
연구자들은 이러한 과제를 인식하고 대안을 모색하기 시작했습니다. 무차별 대입에 의존하는 대신 그들은 어떻게 AI를 더 크게 만드는 것이 아니라 더 똑똑하게 만들 수 있는지 물었습니다.
스케일링 코드 깨기
최근의 획기적인 발전은 전통적인 확장 법칙을 능가하는 것이 가능하다는 것을 보여줍니다. 더 스마트한 아키텍처, 세련된 데이터 전략, 효율적인 훈련 기술을 통해 AI는 막대한 리소스 없이도 새로운 차원에 도달할 수 있습니다.
더욱 스마트한 모델 설계: 연구자들은 모델을 더 크게 만드는 대신 모델을 더 효율적으로 만드는 데 중점을 두고 있습니다. 예는 다음과 같습니다:
- 희소 모델: 희소 모델은 모든 매개 변수를 한 번에 활성화하는 대신 특정 작업에 필요한 부분만 사용합니다. 이 접근 방식은 성능을 유지하면서 컴퓨팅 성능을 절약합니다. 주목할만한 예는 미스트랄 7B70억 개의 매개변수만 있음에도 불구하고 희소 아키텍처를 사용하여 훨씬 더 큰 모델보다 성능이 뛰어납니다.
- Transformer 개선: Transformer는 현대 AI의 중추로 남아 있지만 디자인은 진화하고 있습니다. 다음과 같은 혁신 선형 주의 메커니즘 변압기를 더 빠르고 리소스 집약적으로 만듭니다.
더 나은 데이터 전략: 더 많은 데이터가 항상 더 나은 것은 아닙니다. 선별된 고품질 데이터 세트는 종종 엄청난 양보다 성능이 뛰어납니다. 예를 들어,
- 집중된 데이터세트: 연구원들은 필터링되지 않은 대규모 데이터를 교육하는 대신 깨끗하고 관련성이 높은 데이터세트를 사용하고 있습니다. 예를 들어 OpenAI는 신뢰성을 높이기 위해 신중하게 선택된 데이터로 전환했습니다.
- 도메인별 교육: 의학이나 법률과 같은 전문 분야에서 대상 데이터 세트는 모델이 더 적은 수의 사례로도 잘 작동하도록 돕습니다.
효율적인 훈련 방법: 새로운 훈련 기술은 성과를 저하시키지 않으면서 자원 수요를 줄이고 있습니다. 이러한 훈련 방법의 몇 가지 예는 다음과 같습니다.
응급 능력: 모델이 성장함에 따라 명시적으로 교육받지 않은 문제를 해결하는 등 놀라운 기능을 표시하는 경우도 있습니다. 이러한 창발적 능력은 더 큰 모델에는 나타나지만 더 작은 모델에는 나타나지 않는 경우가 많기 때문에 전통적인 확장 법칙에 도전합니다. 연구원들은 이제 무차별 대입 확장에 의존하지 않고 이러한 능력을 보다 효율적으로 잠금 해제하는 방법을 조사하고 있습니다.
더 스마트한 AI를 위한 하이브리드 접근 방식: 신경망과 상징적 추론을 결합하는 것도 또 다른 유망한 방향입니다. 이러한 하이브리드 시스템은 패턴 인식과 논리적 추론을 결합하여 더욱 지능적이고 적응력이 뛰어납니다. 이 접근 방식을 사용하면 대규모 데이터 세트와 컴퓨팅 성능의 필요성이 줄어듭니다.
실제 사례
몇몇 최신 모델은 이러한 발전이 어떻게 규칙을 다시 작성하는지 보여줍니다.
GPT-4o 미니: 이 모델은 훨씬 더 큰 버전에 필적하는 성능을 제공하지만 비용과 리소스는 훨씬 저렴합니다. 보다 스마트한 훈련 기술과 집중된 데이터 세트의 도움으로 이러한 결과를 달성합니다.
미스트랄 7B: 이 모델은 70억 개의 매개변수만으로 수백억 개의 매개변수를 가진 모델보다 성능이 뛰어납니다. 희박한 아키텍처는 스마트 디자인이 원시 크기를 능가할 수 있음을 입증합니다.
클로드 3.5: 안전과 윤리적 고려를 최우선으로 하는 이 모델은 강력한 성능과 사려 깊은 자원 사용의 균형을 유지합니다.
확장법 위반의 영향
이러한 발전은 실제적인 의미를 갖습니다.
AI 접근성 향상: 효율적인 설계는 AI 개발 및 배포 비용을 낮춰줍니다. 다음과 같은 오픈 소스 모델 라마 3.1 중소기업과 연구원들이 고급 AI 도구를 사용할 수 있도록 만들고 있습니다.
더욱 친환경적인 미래: 최적화된 모델은 에너지 소비를 줄여 AI 개발을 더욱 지속 가능하게 만듭니다. AI의 환경 영향에 대한 우려가 커지면서 이러한 변화는 매우 중요합니다.
AI의 범위 확장: 더 작고 더 효율적인 모델은 스마트폰, IoT 장치와 같은 일상적인 장치에서 실행할 수 있습니다. 이는 실시간 언어 번역부터 자동차 자율 시스템에 이르기까지 새로운 응용 가능성을 열어줍니다.
결론
확장법은 AI의 과거를 형성했지만 더 이상 미래를 정의하지 않습니다. 더 스마트한 아키텍처, 더 나은 데이터 처리, 효율적인 교육 방법은 기존 확장의 규칙을 깨고 있습니다. 이러한 혁신은 AI를 더욱 강력하게 만들 뿐만 아니라 더욱 실용적이고 지속 가능하게 만들고 있습니다.
무차별 성장에서 지능형 설계로 초점이 옮겨졌습니다. 이 새로운 시대는 더 많은 사람들이 접근할 수 있고, 환경 친화적이며, 우리가 이제 막 상상하기 시작한 방식으로 문제를 해결할 수 있는 AI를 약속합니다. 스케일링 코드는 단지 망가진 것이 아니라 다시 작성되고 있습니다.
게시물 스케일링 코드 깨기: AI 모델이 규칙을 재정의하는 방법 처음 등장한 Unite.AI.