Nvidia의 Blackwell은 최대 LLM 교육 벤치 마크를 정복합니다

0
3
nvidia의-blackwell은-최대-llm-교육-벤치-마크를-정복합니다
Nvidia의 Blackwell은 최대 LLM 교육 벤치 마크를 정복합니다

약자에 대한 응원을 즐기는 사람들을 위해 최신 MLPERF 벤치 마크 결과는 실망 할 것입니다. Nvidia의 GPU는 경쟁을 지배했습니다. 아직 다시. 여기에는 LLAMA 3.1 403B 대형 언어 모델을 사전으로 전하며 최신의 가장 까다로운 벤치 마크에 대한 차트 탑 성능이 포함됩니다. 즉, 최신 AMD GPU 인 MI325X를 중심으로 제작 된 컴퓨터는 NVIDIA의 H200의 성능과 일치했습니다. 블랙웰 가장 인기있는 LLM 미세 조정 벤치 마크에서 전임자. 이것은 AMD가 Nvidia의 1 세대임을 암시합니다.

mlperf 교육은 mlcommons 협회. “AI 성능은 때때로 야생 웨스트가 될 수 있습니다. Mlperf는 그 혼란에 질서를 가져 오려고합니다.” Dave SalvatorNvidia의 가속 컴퓨팅 제품 담당 이사. “이것은 쉬운 일이 아닙니다.”

경쟁은 6 개의 벤치 마크로 구성되며 각각 다른 산업 관련 머신 러닝 작업을 조사합니다. 벤치 마크는 컨텐츠 권장 사항, 대형 언어 모델 사전 조정, 대형 언어 모델 미세 조정, 기계 비전 응용 프로그램에 대한 객체 감지, 이미지 생성 및 사기 탐지 및 약물 발견과 같은 응용 프로그램의 그래프 노드 분류입니다.

대형 언어 모델 사전 조정 작업이 가장 자원 집약적이며 이번 라운드는 더욱 업데이트되었습니다. “사전 여겨지는”이라는 용어는 다소 오해의 소지가 있습니다.“훈련”이라는 단계가 뒤 따르는 인상을 줄 수 있습니다. 그렇지 않습니다. 사전 조정은 대부분의 숫자 위기가 발생하는 곳이며, 다음은 일반적으로 미세 조정으로 특정 작업의 모델을 개선합니다.

이전의 반복에서, 사전 계통은 GPT3 모델에서 수행되었다. 이 반복은 GPT3 크기의 두 배 이상인 Meta의 LLAMA 3.1 403B로 대체되었으며 4 배 더 큰 컨텍스트 창을 사용합니다. 컨텍스트 창은 모델이 한 번에 처리 할 수있는 입력 텍스트의 양입니다. 이 더 큰 벤치 마크는 더 큰 모델의 업계 트렌드뿐만 아니라 일부 건축 업데이트를 포함합니다.

Blackwell은 차트를 차트에 올렸고 AMD는 꼬리에 있습니다

6 가지 벤치 마크 모두에서 가장 빠른 교육 시간은 Nvidia의 Blackwell GPU에있었습니다. NVIDIA 자체는 모든 벤치 마크에 제출했습니다 (다른 회사는 NVIDIA GPUS 주변에 구축 된 다양한 컴퓨터를 사용하여 제출했습니다). Nvidia의 Salvator는 이것이 Blackwell GPU의 첫 번째 배치 이며이 성능은 개선 될 가능성이 있다고 강조했습니다. “우리는 여전히 Blackwell Development Life Cycle의 초기에 상당히 초기입니다.”라고 그는 말합니다.

AMD가 AMD GPU를 포함한 컴퓨터를 사용하여 제출했지만 AMD가 교육 벤치 마크에 제출 한 것은 이번이 처음입니다. 가장 인기있는 벤치 마크 인 LLM 미세 조정에서 AMD는 최신 Instinct MI325X GPU가 NVIDIA의 H200과 동등하게 수행했음을 보여주었습니다. 또한 본능 MI325X는 전임자보다 30 % 개선을 보여주었습니다. 본능 MI300X. (이 둘의 주요 차이점은 MI325X가 MI300X보다 30 % 더 높은 대역폭 메모리를 제공한다는 것입니다.)

Google은 일부 벤치 마크 인 Image-Generation 작업에 제출했습니다. 트릴 리움 TPU.

네트워킹의 중요성

LLM 미세 조정 벤치 마크에 대한 모든 제출물 중에서 GPU가 가장 많은 시스템은 512 B200을 연결하는 컴퓨터 인 Nvidia에 의해 제출되었습니다. 이 척도에서 GPU 간 네트워킹이 중요한 역할을 시작합니다. 이상적으로는 둘 이상의 GPU를 추가하면 훈련 시간을 GPU 수로 나눕니다. 실제로, 일부 시간은 의사 소통으로 손실되므로 항상 그보다 덜 효율적입니다. 그 손실을 최소화하는 것은 가장 큰 모델을 효율적으로 훈련시키는 데 중요합니다.

이는 가장 작은 제출물이 512 GPU를 사용했으며 가장 큰 8,192 개를 사용한 사전 연상 벤치 마크에서 더욱 중요 해집니다. 이 새로운 벤치 마크의 경우, 더 많은 GPU를 사용한 성능 스케일링은 특히 선형에 가깝기 때문에 이상적인 성능의 90 %를 달성했습니다.

Nvidia의 Salvator는 이것을 NVL72로, 36 Grace CPU와 72 Blackwell GPU를 연결하는 효율적인 패키지입니다. nvlink,“단일의 대규모 GPU 역할을하는”시스템을 형성하기 위해 데이터 시트 주장. 그런 다음 다수의 NVL72를 연결 하였다 인피니본 네트워크 기술.

특히, 8192 GPU 의이 MLPERF 라운드에 대한 가장 큰 제출은 사전 연고 벤치 마크의 요구가 증가 했음에도 불구하고 가장 크지 않습니다. 이전 라운드는 10,000 GPU가 넘는 제출을 보았습니다. 케네스 리치Hewlett Packard Enterprise의 Principal AI 및 Machine Learning Engineer는 GPU의 개선 및 이들 사이의 네트워킹 감소에 기인합니다. “이전에는 16 개의 서버 노드가 필요했습니다 [to pretrain LLMs]그러나 오늘날 우리는 4로 그것을 할 수 있습니다. 이것이 우리가 많은 효율적인 스케일링을 얻고 있기 때문에 우리가 그렇게 많은 거대한 시스템을 보지 못하는 이유 중 하나라고 생각합니다.”

네트워킹과 관련된 손실을 피하는 한 가지 방법은 많은 AI 가속기를 다음과 같은 거대한 웨이퍼에 넣는 것입니다. 두뇌최근에 주장했다 이기다 NVIDIA의 Blackwell GPU는 추론 작업에서 2 배 이상의 요소입니다. 그러나 그 결과는 측정되었습니다 인공 분석워크로드 실행 방법을 제어하지 않고 다른 공급자를 쿼리합니다. 따라서 MLPERF 벤치 마크가 보장하는 방식에서 사과 대 사과 비교가 아닙니다.

힘의 부족

MLPERF 벤치 마크에는 전력 테스트가 포함되어 있으며 각 교육 작업을 달성하기 위해 소비되는 전력량을 측정합니다. 이번 라운드는 단일 제출자 인 Lenovo만이 제출시 전력 측정을 포함하여 공연자간에 비교할 수 없습니다. 두 개의 Blackwell GPU에서 LLM을 미세 조정하는 데 필요한 에너지는 6.11 기가 줄 (Gigajoules) 또는 1,698 킬로와트시 또는 겨울 동안 작은 집을 가열하는 데 걸리는 에너지였습니다. 성장하면서 우려 AI의 에너지 사용에 대해, 훈련의 전력 효율성은 중요하며,이 저자는 아마도 더 많은 회사들이 이러한 결과를 향후 결과에 제출하기를 희망하는 데 혼자가 아닐 수도 있습니다.