머신 러닝 필드는 빠르게 움직이고 있으며, 사용 된 척도는 측정 진행 상황을 유지하기 위해 경쟁해야합니다. 2 년마다 기계 학습 대회 인 MLPERF는 때때로 “AI 올림픽”이라고 불렀던 MLPERF는 현장의 새로운 방향을 반영하여 3 개의 새로운 벤치 마크 테스트를 도입했습니다.
“최근에 현장에서 일어나는 일을 따르기가 매우 어려웠습니다.”라고 말합니다. Miro HodakAMD 엔지니어 및 MLPERF 추론 실무 그룹 공동 의장. “우리는 모델이 점차 커지고 있음을 알 수 있으며, 지난 두 라운드에서 우리가 가진 가장 큰 모델을 소개했습니다.”
이 새로운 벤치 마크를 다루는 칩은 일반적인 용의자 인 Nvidia, Arm 및 Intel에서 나왔습니다. NVIDIA는 차트를 1 위, 새로운 차트를 소개했습니다 블랙웰 울트라 GPU, a GB300 랙 스케일 디자인. AMD는 최신 성능을 발휘하여 최신 성능을 발휘했습니다 MI325X gpus. 인텔은 여전히 CPU에 대한 추론을 할 수 있음을 증명했습니다. XEON 제출물이지만 GPU 게임에도 입력했습니다 인텔 아크 프로 제출.
새로운 벤치 마크
마지막 라운드, mlperf 소개 LLAMA3.1-403B를 기반으로 한 큰 언어 모델입니다. 이번 라운드에서 그들은 다시 한 번 스스로를 차지하여 DeepSeek R1 671B 모델을 기반으로 한 벤치 마크를 소개했습니다.
추론 모델로서 DeepSeek R1은 쿼리에 접근 할 때 여러 단계의 사슬을 생각합니다. 이는 많은 계산이 추론 중에 발생한 다음 정상적인 LLM 작동에서 발생 하므로이 벤치 마크가 더욱 어려워집니다. 추론 모델은 가장 정확하다고 주장되므로 과학, 수학 및 복잡한 프로그래밍 쿼리를위한 선택 기술이됩니다.
MLPERF는 아직 LLAMA3.1-8B를 기반으로 가장 작은 LLM 벤치 마크 외에도 가장 작은 것을 도입했습니다. MLPERF 추론 태스크 포스 의장 인 Taran Iyengar는 낮은 대기 시간이지만 높은 비율 추론에 대한 산업 수요가 증가하고 있다고 설명했다. 작은 LLM은이를 제공 할 수 있으며 텍스트 요약 및 에지 응용 프로그램과 같은 작업에 탁월한 선택입니다.
이로 인해 LLM 기반 벤치 마크의 총 카운트를 혼란스러운 4 개로 가져옵니다. 여기에는 새롭고 가장 작은 LLAMA3.1-8B 벤치 마크가 포함됩니다. 기존 LLAMA2-70B 벤치 마크; LLAMA3.1-403B 벤치 마크의 마지막 라운드 소개; 그리고 가장 큰 새로운 Deepseek R1 모델. 다른 것이 없다면,이 신호 LLM은 아무데도 가지 않습니다.
무수한 LLM 외에도이 MLPerf 추론 라운드에는 Whisper-Large-V3을 기반으로 새로운 음성 텍스트 모델이 포함되었습니다. 이 벤치 마크는 스마트 장치 또는 음성 기반 AI 인터페이스 등 점점 더 많은 음성 지원 응용 프로그램에 대한 응답입니다.
Themlperf 추론 경쟁에는 “Close”라는 두 가지 범주가 있습니다. “폐쇄”는 수정없이 기준 신경망 모델을 사용해야하며 모델에 대한 일부 수정이 허용되는 “Open”을 사용해야합니다. 그 안에는 테스트 수행 방식과 어떤 종류의 인프라와 관련된 몇 가지 하위 범주가 있습니다. 우리는 정신을 위해 “폐쇄 된”데이터 센터 서버 결과에 중점을 둘 것입니다.
Nvidia 리드
놀랍게도, 최소한 ‘서버’카테고리에서 각 벤치 마크에서 가속기 당 최고의 성능은 NVIDIA GPU 기반 시스템에 의해 달성되었습니다. Nvidia는 또한 Blackwell Ultra를 공개하여 Lllama3.1-405b와 Deepseek R1 추론의 두 가지 벤치 마크에서 차트를 토핑했습니다.
블랙웰 울트라 Blackwell 아키텍처의보다 강력한 반복으로, 메모리 용량이 훨씬 더 많아지고,주의 레이어의 가속도를 두 배로 늘리고, 1.5 배 더 많은 AI 컴퓨팅, 표준 블랙웰에 비해 메모리와 연결이 더 빠릅니다. 테스트 한 두 벤치 마크와 같이 더 큰 AI 워크로드를위한 것입니다.
하드웨어 개선 외에도 NVIDIA의 Accelerated Computing Products 이사 Dave Salvator Blackwell Ultra의 성공은 두 가지 주요 변경 사항으로 이어집니다. 먼저, Nvidia의 독점적 인 4 비트 부동 소수점 사용 숫자 형식,,, NVFP4. Salvator는“우리는 BF16과 같은 형식에 비슷한 정확도를 제공 할 수 있습니다.
두 번째는 소위입니다 분리 된 서빙. 분리 된 서빙의 배후에있는 아이디어는 추론 워크로드에 두 가지 주요 부분이 있다는 것입니다. Prefill, 여기서 쿼리 (“이 보고서를 요약하십시오.”) 및 전체 컨텍스트 창 (보고서)이 LLM에로드되고 생성/디코딩이 실제로 계산됩니다. 이 두 단계마다 요구 사항이 다릅니다. 프리 필드는 무거운 계산이지만 생성/디코딩은 메모리 대역폭에 훨씬 더 의존합니다. Salvator는 두 단계의 다른 단계에 다른 GPU 그룹을 할당함으로써 Nvidia는 거의 50 %의 성능 이득을 달성한다고 말합니다.
AMD는 뒤에 가까이 있습니다
AMD의 최신 가속기 칩 인 MI355X는 7 월에 출시되었습니다. 이 회사는 모델에 대한 소프트웨어 수정이 허용되는 “오픈”범주에서만 결과를 제공했습니다. Blackwell Ultra와 마찬가지로 MI355X는 4 비트 플로팅 포인트 지원과 확장 된 대역폭 메모리를 특징으로합니다. MI355X는 Open LLAMA2.1-70B 벤치 마크에서 2.7의 벤치 마크에서 전임자 MI325X를 이겼다고 말합니다. Mahesh BalasubramanianAMD의 데이터 센터 GPU 제품 마케팅 수석 이사.
AMD의 “폐쇄”제출에는 AMD MI300X 및 MI325X GPU가 구동하는 시스템이 포함되었습니다. 더 고급 MI325X 컴퓨터는 Lllama2-70B의 NVIDIA H200S, 전문가 테스트의 혼합 및 이미지 생성 벤치 마크와 유사하게 수행되었습니다.
이 라운드에는 AMD MI300X 및 MI325X GPU가 동일한 추론 작업 인 LLAMA2-70B 벤치 마크에 사용 된 첫 번째 하이브리드 제출도 포함되었습니다. 새로운 GPU가오고 있기 때문에 하이브리드 GPU의 사용이 중요합니다. 매년 케이던스및 En-Masse를 배포 한 이전 모델은 아무데도 가지 않습니다. 다른 종류의 GPU 사이에 워크로드를 전파 할 수 있다는 것은 필수 단계입니다.
인텔은 GPU 게임에 들어갑니다
과거에는 인텔이 기계 학습을하기 위해 GPU가 필요하지 않다는 것을 확고하게 유지했습니다. 실제로 인텔의 Xeon CPU를 사용한 제출물은 여전히 객체 감지 벤치 마크에서 NVIDIA L4와 동등하게 수행되었지만 추천 시스템 벤치 마크에서 따라 갔다.
이번 라운드는 처음으로 인텔 GPU도 공연을했습니다. 그만큼 인텔 아크 프로 2022 년에 처음 출시되었습니다. MLPERF 제출은 Maxsun Intel Arc Pro B60 듀얼 48g 터보 여기에는 2 개의 GPU와 48 기가 바이트의 메모리가 포함되어 있습니다. 이 시스템은 작은 LLM 벤치 마크에서 NVIDIA의 L40S로 ON-PAR을 수행하여 LLAMA2-70B 벤치 마크에서이를 수행했습니다.