AI 개발의 확장 법칙 재고

alex mcfarland

11개월 ago

개발자와 연구원이 LLM 성과의 경계를 확장함에 따라 다음에 대한 질문이 제기됩니다. 효율성 직기 대형. 최근까지 모델의 크기와 훈련 데이터의 양을 늘리는 데 중점을 두었고, 수치 정밀도(계산 중에 숫자를 표현하는 데 사용되는 비트 수)에는 거의 관심을 두지 않았습니다.

에이 최근 연구 Harvard, Stanford 및 기타 기관의 연구자들은 이러한 전통적인 관점을 뒤집었습니다. 그들의 연구 결과는 정밀도가 이전에 인정된 것보다 모델 성능을 최적화하는 데 훨씬 더 중요한 역할을 한다는 것을 시사합니다. 이 계시는 모델 개발을 안내하는 확장 법칙에 새로운 차원을 도입함으로써 AI의 미래에 대한 심오한 영향을 미칩니다.

초점의 정확성

AI의 수치 정밀도는 계산 중에 숫자를 표현하는 데 사용되는 세부 수준을 나타내며 일반적으로 비트 단위로 측정됩니다. 예를 들어, 16비트 정밀도는 8비트 정밀도보다 더 세밀한 숫자를 나타내지만 더 많은 계산 능력이 필요합니다. 기술적 뉘앙스처럼 보일 수 있지만 정밀도는 AI 모델의 효율성과 성능에 직접적인 영향을 미칩니다.

라는 제목의 연구 정밀도를 위한 확장 법칙에서는 종종 간과되는 정밀도와 모델 성능 간의 관계를 자세히 살펴봅니다. 465회가 넘는 광범위한 훈련 실행을 통해 연구원들은 3비트부터 16비트까지 다양한 정밀도로 모델을 테스트했습니다. 최대 17억 개의 매개변수를 포함하는 모델은 무려 260억 개의 토큰에 대해 훈련되었습니다.

결과는 분명한 추세를 보여주었습니다. 정밀도는 단순한 배경 변수가 아닙니다. 이는 모델이 얼마나 효과적으로 수행되는지를 근본적으로 결정합니다. 특히, 크기에 대한 최적 비율보다 훨씬 더 많은 데이터에 대해 훈련된 과도하게 훈련된 모델은 다음과 같은 상황에서 성능 저하에 특히 민감했습니다. 양자화훈련 후 정밀도를 줄이는 프로세스입니다. 이러한 민감도는 실제 적용을 위한 모델을 설계할 때 필요한 중요한 균형을 강조했습니다.

새로운 스케일링 법칙

이 연구의 주요 공헌 중 하나는 매개변수 수 및 훈련 데이터와 같은 전통적인 변수와 함께 정밀도를 통합하는 새로운 스케일링 법칙의 도입입니다. 이러한 법률은 모델 훈련 중에 계산 리소스를 할당하는 가장 효율적인 방법을 결정하기 위한 로드맵을 제공합니다.

연구원들은 7~8비트의 정밀도 범위가 일반적으로 대규모 모델에 최적이라는 것을 확인했습니다. 이는 계산 효율성과 성능 간의 균형을 유지하여 종종 리소스를 낭비하는 16비트 정밀도를 기본값으로 설정하는 일반적인 관행에 도전합니다. 반대로, 4비트 정밀도와 같이 너무 적은 비트를 사용하면 비슷한 성능을 유지하기 위해 모델 크기를 불균형하게 늘려야 합니다.

이 연구는 또한 상황에 따른 전략을 강조합니다. 7~8비트는 크고 유연한 모델에 적합하지만 LLaMA 3.1과 같은 고정 크기 모델은 특히 광범위한 데이터 세트를 수용하기 위해 용량이 확장될 때 더 높은 정밀도 수준의 이점을 얻습니다. 이러한 발견은 정밀 스케일링과 관련된 장단점에 대한 보다 미묘한 이해를 제공하는 중요한 진전입니다.

과제와 실제적 시사점

이 연구는 AI 스케일링에서 정밀도의 중요성에 대한 설득력 있는 증거를 제시하지만, 이를 적용하는 데에는 실질적인 장애물이 있습니다. 한 가지 중요한 제한 사항은 하드웨어 호환성입니다. 정밀도가 낮은 교육을 통해 얻을 수 있는 잠재적 비용 절감 효과는 이를 지원하는 하드웨어의 능력에 따라 결정됩니다. 최신 GPU 및 TPU는 16비트 정밀도에 최적화되어 있으며 컴퓨팅 효율성이 더 높은 7~8비트 범위에 대한 지원이 제한되어 있습니다. 하드웨어가 따라잡을 때까지 이러한 발견의 이점은 많은 개발자에게 도달하지 못할 수 있습니다.

또 다른 과제는 과도한 훈련 및 양자화와 관련된 위험에 있습니다. 연구 결과에 따르면 과도하게 훈련된 모델은 양자화 시 성능 저하에 특히 취약합니다. 이는 연구자에게 딜레마를 안겨줍니다. 광범위한 교육 데이터는 일반적으로 유익하지만 정밀도가 낮은 모델에서는 실수로 오류를 악화시킬 수 있습니다. 올바른 균형을 달성하려면 데이터 양, 매개변수 크기 및 정밀도를 주의 깊게 보정해야 합니다.

이러한 과제에도 불구하고 이번 연구 결과는 AI 개발 관행을 개선할 수 있는 분명한 기회를 제공합니다. 연구자들은 정밀도를 핵심 고려 사항으로 통합함으로써 컴퓨팅 예산을 최적화하고 리소스의 낭비적인 남용을 방지하여 보다 지속 가능하고 효율적인 AI 시스템을 위한 기반을 마련할 수 있습니다.

AI 스케일링의 미래

이번 연구 결과는 또한 AI 연구의 궤적에 더 넓은 변화가 있음을 시사합니다. 수년 동안 이 분야는 점점 더 큰 모델과 데이터세트에 초점을 맞추는 “더 클수록 좋다”는 사고방식이 지배해 왔습니다. 그러나 8비트 훈련과 같은 저정밀 방법을 통한 효율성 향상이 한계에 도달함에 따라 이러한 무제한 확장 시대는 종말을 고할 수 있습니다.

Carnegie Mellon University의 AI 연구원인 Tim Dettmers는 이 연구를 전환점으로 보고 있습니다. “결과는 우리가 양자화의 실질적인 한계에 도달했음을 분명히 보여줍니다.”라고 그는 설명합니다. Dettmers는 범용 확장에서 특정 작업을 위해 설계된 특수 모델 및 무차별적인 계산 능력보다 유용성과 접근성을 우선시하는 인간 중심 애플리케이션과 같은 보다 목표화된 접근 방식으로 전환할 것으로 예측합니다.

이 피벗은 윤리적 고려 사항과 리소스 제약이 개발 우선 순위에 점점 더 많은 영향을 미치고 있는 AI의 광범위한 추세와 일치합니다. 분야가 성숙해짐에 따라 성능이 좋을 뿐만 아니라 인간의 작업 흐름에 원활하게 통합되고 실제 요구 사항을 효과적으로 해결하는 모델을 만드는 데 초점이 옮겨갈 수 있습니다.

결론

스케일링 법칙에 정밀도를 통합하는 것은 AI 연구의 새로운 장을 열었습니다. 수치적 정밀도의 역할을 조명함으로써 이 연구는 오랜 가정에 도전하고 보다 효율적이고 자원을 고려한 개발 관행의 문을 열었습니다.

하드웨어 제한과 같은 실질적인 제약이 남아 있지만, 이번 연구 결과는 모델 교육 최적화를 위한 귀중한 통찰력을 제공합니다. 낮은 정밀도 양자화의 한계가 명백해짐에 따라 이 분야는 끊임없는 규모 추구에서 전문적이고 인간 중심적인 애플리케이션을 강조하는 보다 균형 잡힌 접근 방식으로 패러다임 전환을 준비하고 있습니다.

이 연구는 성능뿐만 아니라 효율성, 실용성 및 영향력을 위해 혁신하기 위한 커뮤니티에 대한 지침이자 도전의 역할을 합니다.

게시물 AI 개발의 확장 법칙 재고 처음 등장한 Unite.AI.

초점의 정확성

새로운 스케일링 법칙

과제와 실제적 시사점

AI 스케일링의 미래

결론

관련된 글: