믹스 엔터 (MOE) 모델은 AI를 확장하는 방식을 혁신하고 있습니다. 주어진 시간에 모델의 구성 요소의 서브 세트 만 활성화함으로써 Moes는 모델 크기와 계산 효율 사이의 트레이드 오프를 관리하는 새로운 접근 방식을 제공합니다. 모든 입력에 모든 매개 변수를 사용하는 전통적인 조밀 한 모델과 달리 Moes는 추론 및 훈련 비용을 관리하는 동안 엄청난 매개 변수 계수를 달성합니다. 이러한 혁신은 연구 개발의 물결을 불러 일으켰으며 기술 거인과 신생 기업 모두 MOE 기반 아키텍처에 많은 투자를하게되었습니다.
경험의 혼합 모델이 작동하는 방법
MOE 모델은 핵심으로“전문가”라는 여러 특수화 된 하위 네트워크로 구성되며, 어떤 전문가가 각 입력을 처리 해야하는지 결정하는 게이팅 메커니즘에 의해 감독됩니다. 예를 들어, 언어 모델로 전달 된 문장은 8 명의 전문가 중 2 명만 참여하여 계산 워크로드를 크게 줄일 수 있습니다.
이 개념은 주류로 가져 왔습니다 Google의 스위치 변압기 및 글램 모델전문가들이 변압기의 전통적인 피드 포워드 층을 대체했습니다. 예를 들어, 스위치 변압기는 토큰을 레이어 당 단일 전문가로 라우팅하는 반면 Glam은 상위 2 개의 라우팅을 사용하여 성능 향상입니다. 이 설계는 Moes가 GPT-3과 같은 조밀 한 모델을 일치 시키거나 성능을 발휘하면서 에너지와 계산이 크게 적을 수 있음을 보여주었습니다.
주요 혁신은 조건부 계산에 있습니다. Moes는 전체 모델을 발사하는 대신 가장 관련성이 높은 부품 만 활성화합니다. 즉, 수백억 또는 수십억 개의 매개 변수를 가진 모델이 더 작은 순서의 효율로 실행될 수 있습니다. 이를 통해 연구원들은 전통적인 스케일링 방법으로 달성 할 수없는 선형 계산의 증가없이 용량을 확장 할 수 있습니다.
Moe의 실제 응용 프로그램
MOE 모델은 이미 여러 도메인에서 자국을 만들었습니다. Google의 글램 및 스위치 변압기는 교육 및 추론 비용이 낮은 언어 모델링에서 최신 결과를 보여주었습니다. Microsoft의 Z 코드 MOE는 번역기 도구에서 작동하며 이전 모델보다 정확성과 효율성이 향상된 100 개 이상의 언어를 처리합니다. 이들은 단순한 연구 프로젝트가 아니라 라이브 서비스를 제공하고 있습니다.
컴퓨터 비전에서 Google의 V-Moe 아키텍처 Imagenet과 같은 벤치 마크에서 분류 정확도가 향상되었으며 Limoe 모델은 이미지와 텍스트와 관련된 다중 모드 작업에서 강력한 성능을 보여주었습니다. 전문가가 전문화하는 능력 (일부 텍스트, 기타 이미지)은 AI 시스템에 새로운 기능을 제공합니다.
추천 시스템과 멀티 태스킹 학습 플랫폼도 Moes의 혜택을 받았습니다. 예를 들어, YouTube의 추천 엔진은 MOE와 같은 아키텍처를 사용했습니다 시계 시간 및 클릭률과 같은 목표를보다 효율적으로 처리합니다. 다른 전문가를 다른 작업이나 사용자 행동에 할당함으로써 Moes는보다 강력한 개인화 엔진을 구축하는 데 도움이됩니다.
혜택과 도전
MOE의 주요 장점은 효율성입니다. 이를 통해 대규모 모델을 훨씬 덜 컴퓨팅하여 교육 및 배치 할 수 있습니다. 예를 들어, Mistral AI의 Mixtral 8 × 7b 모델은 총 매개 변수가 47b하지만 토큰 당 12.9b 만 활성화하여 GPT-3.5와 같은 모델과 경쟁하면서 13B 모델의 비용 효율성을 제공합니다.
Moes는 또한 전문화를 육성합니다. 다른 전문가들은 뚜렷한 패턴을 배울 수 있기 때문에 전체 모델은 다양한 입력을 처리하는 데 더 나은 것입니다. 이는 한 가지 크기에 맞는 고밀도 모델이 성능이 저조 할 수있는 다국어, 멀티 도메인 또는 멀티 모드 작업에 특히 유용합니다.
그러나 Moes에는 엔지니어링 문제가 있습니다. 그들을 훈련 시키려면 모든 전문가가 효과적으로 사용되도록 신중한 균형을 유지해야합니다. 메모리 오버 헤드는 또 다른 관심사입니다. 추론 당 일부 매개 변수 만 활성화되는 반면 모두 메모리에로드되어야합니다. GPU 또는 TPU에 걸쳐 계산을 효율적으로 분배하는 것은 사소한 일이며 Microsoft의 DeepSpeed 및 Google Gshard와 같은 전문 프레임 워크를 개발했습니다.
이러한 장애물에도 불구하고 성능 및 비용 혜택은 현재 대규모 AI 디자인의 중요한 구성 요소로 간주 될 정도로 충분합니다. 더 많은 도구와 인프라가 성숙함에 따라 이러한 과제는 점차 극복되고 있습니다.
MOE가 다른 스케일링 방법과 비교하는 방법
전통적인 조밀 한 스케일링은 모델 크기를 증가시키고 비례 적으로 계산합니다. Moes는 입력 당 컴퓨팅을 증가시키지 않고 총 매개 변수를 증가 시켜이 선형성을 끊습니다. 이를 통해 이전에 수십억으로 제한된 동일한 하드웨어에서 수조 개의 매개 변수가있는 모델이 수십억으로 제한 될 수 있습니다.
전문화를 도입하지만 여러 개의 전체 포워드 패스가 필요한 모델 앙상블과 비교할 때 Moes는 훨씬 더 효율적입니다. Moes는 여러 모델을 병렬로 실행하는 대신 하나만 실행하지만 여러 전문가 경로의 이점을 얻습니다.
Moes는 또한 스케일링 교육 데이터 (예 : Chinchilla 방법)와 같은 전략을 보완합니다. Chinchilla는 소규모 모델로 더 많은 데이터를 사용하는 것을 강조하지만 Moes는 모델 용량을 확장하면서 컴퓨팅 용량을 안정적으로 유지하므로 Compute가 병목 현상 인 경우에 이상적입니다.
마지막으로, 가지 치기 및 양자화와 같은 기술은 훈련 후 모델을 수축시키는 반면, Moes는 훈련 중 모델 용량을 증가시킵니다. 그들은 압축을 대체하는 것이 아니라 효율적인 성장을위한 직교 도구입니다.
MOE 혁명을 이끄는 회사
기술 거인
Google 오늘날의 MOE 연구를 개척했습니다. 스위치 변압기 및 글램 모델은 각각 1.6T 및 1.2T 매개 변수로 확장되었습니다. 글램은 에너지의 3 분의 1을 사용하면서 GPT-3 성능을 일치 시켰습니다. Google은 또한 Moes를 Vision (V-Moe) 및 Multimodal Tasks (Limoe)에 적용하여 Universal AI 모델에 대한 광범위한 경로 비전과 일치했습니다.
마이크로 소프트 가지다 Microsoft Translator의 Z 코드 모델을 통해 MOE를 제작에 통합. 또한 DeepSpeed-Moe를 개발하여 3 조 파라미터 모델에 대한 빠른 교육 및 저도의 추론을 가능하게했습니다. 그들의 기여에는 효율적인 MOE 계산을위한 라우팅 알고리즘과 Tutel 라이브러리가 포함됩니다.
메타 탐험 대규모 언어 모델의 Moes 그리고 추천 시스템. 그들의 1.1T MOE 모델은 4 × 적은 컴퓨팅을 사용하여 밀도가 높은 모델 품질과 일치 할 수 있음을 보여주었습니다. Llama 모델은 조밀하지만 Moe에 대한 Meta의 연구는 더 넓은 커뮤니티에 계속 알려줍니다.
아마존 Sagemaker 플랫폼을 통해 Moes를 지원합니다 그리고 내부 노력. 그들은 Mistral의 Mixtral 모델의 훈련을 촉진했으며 Alexa AI와 같은 서비스에서 Moes를 사용한다는 소문이 있습니다. AWS 문서화는 대규모 모델 교육을 위해 MOE를 적극적으로 홍보합니다.
화웨이 그리고 만 중국에서는 또한 기록적인 MOE 모델을 개발했습니다 Pangu-σ (1.085T 매개 변수). 이것은 언어 및 멀티 모달 작업에서 Moe의 잠재력을 보여주고 글로벌 매력을 강조합니다.
신생 기업과 도전자
당신이 가진 미스트랄 포스터 아이입니다 오픈 소스의 MOE 혁신. 그들의 Mixtral 8 × 7b 및 8 × 22B 모델은 Moes가 비용의 일부에서 실행하면서 LLAMA-2 70B와 같은 밀도가 높은 모델을 능가 할 수 있음을 입증했습니다. 5 억 유로 이상의 자금 조달로 Mistral은 희소 건축에 큰 베팅을하고 있습니다.
XaiElon Musk가 설립 한 Is 보도에 따르면 Grok 모델에서 Moes를 탐색합니다. 세부 사항은 제한적이지만 Moes는 Xai와 같은 스타트 업이 대규모 컴퓨팅없이 더 큰 플레이어와 경쟁 할 수있는 방법을 제공합니다.
Databricks모자이크 인수를 통해 출시되었습니다 DBRX효율성을 위해 설계된 개방형 MOE 모델. 또한 MOE 교육을위한 인프라와 레시피를 제공하여 채택의 장벽을 낮추고 있습니다.
Hugging Face와 같은 다른 플레이어는 MOE 지원을 라이브러리에 통합하여 개발자가 이러한 모델을보다 쉽게 구축 할 수 있도록합니다. Moes 자신을 구축하지 않더라도이를 가능하게하는 플랫폼은 생태계에 중요합니다.
결론
혼합 모델은 단순한 트렌드가 아니라 AI 시스템을 구축하고 스케일링하는 방식의 근본적인 변화를 나타냅니다. Moes는 네트워크의 일부만 선택적으로 활성화함으로써 엄청난 비용없이 대규모 모델의 힘을 제공합니다. 소프트웨어 인프라가 따라 잡히고 라우팅 알고리즘이 개선됨에 따라 Moes는 다중 도메인, 다국어 및 멀티 모달 AI의 기본 아키텍처가 될 준비가되어 있습니다.
연구원이든 엔지니어이든 투자자이든 Moes는 AI가 그 어느 때보 다 강력하고 효율적이며 적응력이있는 미래를 엿볼 수 있습니다.
게시물 믹스의 증가 : 스파 스 AI 모델이 기계 학습의 미래를 형성하는 방법 먼저 나타났습니다 Unite.ai.