MLCommons의 최신 라운드에서 벤치 마크 결과에서 NVIDIA의 새로운 Blackwell GPU 아키텍처를 중심으로 구축 된 컴퓨터는 다른 모든 것보다 우수했습니다. 그러나 본능 GPU에 대한 AMD의 최신 스핀 MI325는 반대되는 제품인 Nvidia H200과 일치하는 것으로 입증되었습니다. 비슷한 결과는 주로 소규모 대형 언어 모델 중 하나 인 LLAMA2 70B (70 억 파라미터)의 테스트에있었습니다. 그러나 빠르게 변화하는 AI 환경을 따라 잡기 위해 MLPERF는 머신 러닝이 진행되는 위치를 더 잘 반영하기 위해 세 가지 새로운 벤치 마크를 추가했습니다.
MLPERF는 컴퓨터 시스템 간의 사과 대 사과 비교를 제공하기 위해 기계 학습 시스템을위한 벤치마킹을 실행합니다. 제출자는 자체 소프트웨어와 하드웨어를 사용하지만 기본 신경망은 동일해야합니다. 현재 서버에는 총 11 개의 벤치 마크가 있으며 올해 3 개가 추가되었습니다.
MLPERF 추론의 코드 이어 인 Miro Hodak은“현장의 빠른 발전을 따라 가기가 어려웠다”고 말했다. chatgpt Openai는 2022 년 후반에 출연 한 첫 번째 대형 언어 모델 (LLM)을 공개했으며 지난 9 월 작업을 통해 추론 할 수 있었으며 LLM은 기하 급수적으로 성장했습니다. GPT3에는 1,500 억 개의 매개 변수가 있었고 GPT4는 거의 2 조를 가졌다 고 생각됩니다. 브레이크 넥 혁신의 결과로“w새로운 벤치 마크를 현장에 올리는 속도가 높아졌습니다.”라고 Hodak은 말합니다.
새로운 벤치 마크에는 두 개의 LLM이 포함됩니다. 인기 있고 비교적 소형 LLAMA2 70B는 이미 확립 된 MLPERF 벤치 마크이지만 컨소시엄은 사람들이 오늘날 챗봇을 기대하는 대응 성을 모방 한 것을 원했습니다. 따라서 새로운 벤치 마크 “LLAMA2-70B 대화식”은 요구 사항을 강화합니다. 컴퓨터는 어떤 상황에서도 초당 25 초 이상의 토큰을 생산해야하며 답을 시작하기 위해 450 밀리 초 이상을 소비 할 수 없습니다.
“의 상승을보고에이전트 AI“복잡한 작업을 통해 추론 할 수있는 네트워크 – MLPERF는 그에 필요한 특성을 갖는 LLM을 테스트하고자했습니다. 그들은 작업에 대해 llama3.1 405B를 선택했습니다. LLM은 넓은 상황 창이라고 불리는 것을 가지고 있습니다. llama2 70b의 시간.
RGAT라고하는 최종 새로운 벤치 마크는 그래프주의 네트워크라고합니다. 네트워크에서 정보를 분류하는 역할을합니다. 예를 들어, RGAT를 테스트하는 데 사용되는 데이터 세트는 과학 논문으로 구성되며,이 과학 논문은 모두 저자, 기관 및 연구 분야 간의 관계가 있으며 2 개의 테라 바이트의 데이터를 구성합니다. RGAT는 논문을 3,000 개 미만의 주제로 분류해야합니다.
블랙웰, 본능적 인 결과
nvidia 자체 제출물과 Dell, Google 및 Supermicro와 같은 15 명의 파트너의 MLPERF 벤치 마크 지배를 계속했습니다. 1 세대와 2 세대 홉 따는 기계 아키텍처 GPU (H100 및 메모리 향상 H200)는 강력한 쇼를 만들었습니다. 2022 년에 생산을 시작한 호퍼 (Hopper)는“우리는 작년에 60 % 더 성능을 얻을 수 있었다”고 말했다. Dave SalvatorNvidia의 가속 컴퓨팅 제품 담당 이사. “성능면에서 여전히 헤드 룸이 있습니다.”
그러나 그것은 Nvidia의 것이었다 블랙웰 아키텍처 GPU, B200은 실제로 지배적입니다. Salvator는“호퍼보다 빠른 유일한 것은 Blackwell입니다. B200은 H200보다 36 % 더 높은 대역폭 메모리를 포장하지만 훨씬 더 중요한 것은 8 비트 호퍼 개척 대신 4 비트의 정밀도로 숫자를 사용하여 주요 기계 학습 수학을 수행 할 수 있습니다. 저렴한 컴퓨팅 장치는 더 작기 때문에 GPU에 더 적합하여 AI 컴퓨팅이 더 빠릅니다.
LLAMA3.1 405B 벤치 마크에서 SuperMicro의 8-B200 시스템은 Cisco의 8-H200 시스템의 초당 토큰의 거의 4 배를 전달했습니다. 그리고 동일한 슈퍼 마이크로 시스템은 LLAMA2 70B의 대화식 버전에서 가장 빠른 H200 컴퓨터보다 3 배 빠릅니다.
Nvidia는 Blackwell GPU와 함께 사용했습니다 그레이스 CPUNVL72 데이터 링크가 랙에 여러 서버를 통합 할 수있는 방법을 보여주기 위해 GB200이라고합니다. 따라서 하나의 거대한 GPU 인 것처럼 수행합니다. 검증되지 않은 결과로 회사는 기자와 공유 한 회사 인 GB200 기반 컴퓨터의 전체 랙이 LLAMA2 70B에서 초당 869,200 개의 토큰을 제공합니다. 이 MLPerf 라운드에서보고 된 가장 빠른 시스템은 NVIDIA B200 서버로 초당 98,443 개의 토큰을 제공했습니다.
AMD 최신 본능 GPU를 포지셔닝하고 있습니다 NVIDIA의 H200과 경쟁력있는 성능을 제공하는 MI325X. MI325X는 이전 모델 인 MI300과 동일한 아키텍처를 가지고 있지만 초당 256 기가 바이트와 6 개의 테라 바이트 (각각 33 % 및 13 % 부스트)를 더 많이 추가합니다.
더 많은 메모리를 추가하는 것은 더 크고 큰 LLM을 처리하는 플레이입니다. “모델이 단일 GPU 또는 단일 서버에 들어갈 수 있기 때문에 대형 모델은 이러한 GPU를 활용할 수 있습니다.”라고 말합니다. Mahesh BalasubramanianAMD의 데이터 센터 GPU 마케팅 담당 이사. “따라서 하나의 GPU에서 다른 GPU 또는 한 서버로 다른 서버로 이동하는 통신 오버 헤드가 필요하지 않습니다.이러한 커뮤니케이션을 아키면 대기 시간이 상당히 향상됩니다.” AMD는 소프트웨어 최적화를 통해 추가 메모리를 활용하여 DeepSeek-R1 Eightfold의 추론 속도를 높일 수있었습니다.
LLAMA2 70B 테스트에서 8GPU MI325X 컴퓨터는 비슷한 속임수 H200 기반 시스템의 속도의 3 ~ 7 % 이내에 나타났습니다. 이미지 생성시 MI325X 시스템은 NVIDIA H200 컴퓨터의 10 % 이내였습니다.
이번 라운드의 AMD의 다른 주목할만한 마크는 파트너 인 Mangoboost에서 나온 것으로 4 개의 컴퓨터에서 계산을 통해 LLAMA2 70B 테스트에서 거의 4 배의 성능을 보여주었습니다.
인텔 역사적으로 추론 경쟁에서 CPU 전용 시스템을 제시하여 일부 워크로드의 경우 실제로 GPU가 필요하지 않음을 보여줍니다. 이번에는 이전에 Granite Rapids로 알려진 Intel의 Xeon 6 칩에서 첫 번째 데이터를 보았습니다. 인텔의 3 나노 미터 프로세스. 초당 40,285 개의 샘플에서 듀얼 Xeon 6 컴퓨터의 최상의 이미지 인식 결과는 2 개의 Nvidia H100을 갖춘 Cisco 컴퓨터의 성능의 약 1/3이었습니다.
2024 년 10 월의 Xeon 5 결과와 비교할 때 새로운 CPU는 해당 벤치 마크에서 약 80 %의 부스트와 객체 탐지 및 의료 이미징에 더 큰 부스트를 제공합니다. 2021 년에 Xeon 결과를 처음 제출하기 시작한 이래 (Xeon 3), 회사는 RESNET에서 성능이 11 배 증가했습니다.
현재 인텔은 AI 가속기 칩 전투에서 필드를 그만두고있는 것 같습니다. Nvidia H100에 대한 대안, 가우디 3지난 10 월에 발표 된 새로운 MLPERF 결과 나 버전 4.1에 출연하지 않았다. Gaudi 3은 나중에 계획된 출시를 받았습니다 소프트웨어는 준비되지 않았습니다. 개막식에서 인텔 비전 2025회사의 초대 전용 고객 회의 인 새로 선한 CEO 인 Lip-Bu Tan은 Intel의 AI 노력에 대해 사과하는 것처럼 보였습니다. “나는 우리의 현재 위치에 만족하지 않습니다.” 참석자들에게 말했다. “당신도 행복하지 않습니다. 나는 당신이 크고 분명하게 들었습니다. 우리는 경쟁 시스템을 향해 노력하고 있습니다. 밤새 일어나지는 않지만 우리는 당신을 위해 도착할 것입니다.”
구글 TPU V6E 칩도 표시를했지만 결과는 이미지 생성 작업으로 제한되었습니다. 초당 5.48 쿼리로 4-TPU 시스템은 2024 년 10 월 결과에서 이전 모델 TPU V5E를 사용하여 유사한 컴퓨터보다 2.5 배 증가했습니다. 그럼에도 불구하고 초당 5.48 쿼리는 NVIDIA H100을 사용하는 비슷한 크기의 레노 보 컴퓨터와 거의 일치했습니다.
이 게시물은 2025 년 4 월 2 일에 수정되어 MI325X에서 대역폭 메모리에 대한 올바른 값을 제공했습니다.