의 지배력이 있는 동안 엔비디아 AI 훈련을 위한 GPU 여전히 논란의 여지가 없다우리는 AI 추론 분야에서 경쟁이 기술 거대 기업을 따라잡고 있다는 초기 징후를 보고 있을 수 있습니다. 특히 전력 효율성 측면에서 그렇습니다. Nvidia의 새로운 블랙웰 하지만 칩을 이기는 것은 어려울 수도 있습니다.
오늘 아침, ML 커먼즈 최신 AI 추론 대회 결과를 공개했습니다. ML 성능 Inference v4.1. 이 라운드에는 다음을 사용하는 팀의 첫 번째 제출이 포함되었습니다. AMD 본능 가속기, 최신 구글 트릴리엄 토론토에 본사를 둔 스타트업의 가속기, 칩 언테더AI그리고 Nvidia의 새로운 Blackwell 칩에 대한 첫 번째 시험도 있습니다. 다른 두 회사, 두뇌 그리고 퓨리오사AI새로운 추론 칩을 발표했지만 MLPerf에 제출하지 않았습니다.
올림픽 스포츠와 마찬가지로 MLPerf에는 여러 범주와 하위 범주가 있습니다. 가장 많은 제출이 있었던 것은 “데이터센터 폐쇄” 범주였습니다. 폐쇄 범주(개방형과 대조적으로)는 제출자가 상당한 소프트웨어 수정 없이 주어진 모델에 대한 추론을 실행해야 합니다. 데이터센터 범주는 제출자를 쿼리의 대량 처리에 대해 테스트하는 반면, 에지 범주는 지연을 최소화하는 데 중점을 둡니다.
각 카테고리 내에는 다양한 유형의 AI 작업에 대한 9가지 벤치마크가 있습니다. 여기에는 이미지 생성(Midjourney를 생각해보세요) 및 LLM Q&A(ChatGPT를 생각해보세요)와 같은 인기 있는 사용 사례와 이미지 분류, 객체 감지, 추천 엔진과 같이 똑같이 중요하지만 덜 알려진 작업이 포함됩니다.
이번 대회에는 새로운 벤치마크가 포함되었습니다. 전문가의 혼합. 이것은 성장 추세 LLM 배포에서 언어 모델이 여러 개의 작고 독립적인 언어 모델로 나뉘며, 각각은 일반 대화, 수학 문제 해결, 코딩 지원과 같은 특정 작업에 맞게 미세 조정됩니다. 모델은 각 쿼리를 더 작은 모델의 적절한 하위 집합 또는 “전문가”로 지시할 수 있습니다. 이 접근 방식은 쿼리당 리소스 사용을 줄여 비용을 낮추고 처리량을 높일 수 있다고 말합니다. 미로슬라프 호닥MLPerf 추론 작업 그룹 의장이자 기술 직원의 수석 멤버 (주)에스디에이치디(주).
인기 있는 데이터센터 폐쇄 벤치마크 내 각 벤치마크에서 우승한 것은 여전히 GPU와 CPU를 동일한 패키지로 결합한 Nvidia의 H200 GPU와 GH200 슈퍼칩을 기반으로 한 제출물이었습니다. 그러나 성능 결과를 자세히 살펴보면 더 복잡한 그림이 그려집니다. 제출자 중 일부는 여러 개의 가속기 칩을 사용했고 다른 제출자는 하나만 사용했습니다. 각 제출자가 처리할 수 있는 초당 쿼리 수를 사용된 가속기 수로 정규화하고 각 가속기 유형에 대해 가장 성능이 좋은 제출물만 유지하면 몇 가지 흥미로운 세부 사항이 나타납니다. (이 접근 방식은 CPU와 상호 연결의 역할을 무시한다는 점에 유의하는 것이 중요합니다.)
가속기 기준으로 Nvidia의 Blackwell은 제출된 유일한 벤치마크인 LLM Q&A 작업에서 이전의 모든 칩 반복보다 2.5배 더 높은 성능을 보였습니다. Untether AI의 speedAI240 Preview 칩은 유일한 제출 작업인 이미지 인식에서 H200과 거의 비슷한 성능을 보였습니다. Google의 Trillium은 이미지 생성에서 H100과 H200의 절반 이상을 수행했으며 AMD의 Instinct는 LLM Q&A 작업에서 H100과 비슷한 성능을 보였습니다.
블랙웰의 힘
Nvidia Blackwell의 성공 이유 중 하나는 4비트 부동 소수점 정밀도를 사용하여 LLM을 실행할 수 있는 능력입니다. Nvidia와 경쟁사는 ChatGPT와 같은 트랜스포머 모델의 일부에서 데이터를 표현하는 데 사용되는 비트 수를 줄여 계산 속도를 높였습니다. Nvidia는 H100에서 8비트 수학을 도입했으며, 이 제출은 MLPerf 벤치마크에서 4비트 수학을 처음으로 시연합니다.
Nvidia의 제품 마케팅 이사는 이처럼 정밀도가 낮은 숫자를 사용하는 데 있어 가장 큰 과제는 정확도를 유지하는 것이라고 말했습니다. 데이브 살바토르MLPerf 제출에 필요한 높은 정확도를 유지하기 위해 Nvidia 팀은 소프트웨어에서 상당한 혁신을 이루어야 했다고 그는 말합니다.
블랙웰의 성공에 기여한 또 다른 중요한 요소는 H200의 4.8테라바이트/초에 비해 메모리 대역폭이 거의 두 배인 8테라바이트/초에 달했다는 것입니다.
Nvidia의 Blackwell 제출은 단일 칩을 사용했지만 Salvator는 이것이 네트워크 및 확장을 위해 제작되었으며 Nvidia의 것과 결합하면 최상의 성능을 발휘할 것이라고 말했습니다. NV링크 상호 연결. Blackwell GPU는 최대 18개의 NVLink 100기가바이트/초 연결을 지원하여 총 대역폭은 초당 1.8테라바이트로 H100의 상호 연결 대역폭의 약 두 배입니다.
살바토레는 대규모 언어 모델의 크기가 커짐에 따라 추론에도 수요를 따라가기 위해 다중 GPU 플랫폼이 필요하며, 블랙웰은 이러한 상황을 위해 만들어졌다고 주장합니다. 살바토레는 “블랙웰은 플랫폼입니다.”라고 말합니다.
엔비디아가 제출했습니다 블랙웰 칩미리보기 하위 카테고리에 있는 기반 시스템으로, 아직 판매되지는 않지만 다음 MLPerf 릴리스인 6개월 전에는 출시될 것으로 예상됩니다.
Untether AI는 전력 사용과 엣지에서 빛을 발합니다.
각 벤치마크에 대해 MLPerf는 또한 에너지 측정 대응 항목을 포함하는데, 이는 각 시스템이 작업을 수행하는 동안 사용하는 벽면 플러그 전원을 체계적으로 테스트합니다. 주요 이벤트(데이터센터 폐쇄 에너지 범주)에는 이번 라운드에서 Nvidia와 Untether AI라는 두 개의 제출자만 있었습니다. Nvidia는 모든 벤치마크에서 경쟁한 반면 Untether는 이미지 인식에만 제출했습니다.
제출자 |
촉진 신경 |
가속기 수 |
초당 쿼리 |
와트 |
초당 와트당 쿼리 |
엔비디아 |
엔비디아 H200-SXM-141GB |
8 |
480,131.00 |
5,013.79 |
95.76 |
언테더AI |
언테더AI 스피드AI240 슬림 |
6 |
309,752.00 |
985.52 |
314.30 |
이 스타트업은 앳메모리 컴퓨팅이라고 부르는 접근 방식으로 칩을 구축하여 인상적인 효율성을 달성할 수 있었습니다. UntetherAI의 칩은 작은 프로세서가 바로 옆에 산재된 메모리 요소의 그리드로 구축됩니다. 프로세서는 병렬화되어 있으며, 각각은 근처 메모리 유닛의 데이터와 동시에 작동하므로 메모리와 컴퓨팅 코어 간에 모델 데이터를 이동하는 데 소요되는 시간과 에너지가 크게 줄어듭니다.
Untether AI 제품 부사장은 “AI 워크로드를 처리하는 데 필요한 에너지의 90%가 DRAM에서 캐시로 데이터를 이동하는 데 사용된다는 것을 확인했습니다.”라고 말했습니다. 로버트 비클러. “그래서 Untether가 한 일은 그것을 뒤집는 것이었습니다… 데이터를 컴퓨트로 옮기는 대신, 컴퓨트를 데이터로 옮기려고 합니다.”
이 접근 방식은 MLPerf의 또 다른 하위 범주인 엣지 폐쇄형에서 특히 성공적임이 입증되었습니다. 이 범주는 공장 현장에서의 기계 검사, 가이드 비전 로봇, 자율 주행차와 같이 낮은 에너지 사용과 빠른 처리가 가장 중요한 애플리케이션과 같은 보다 현장적인 사용 사례에 맞춰져 있다고 Beachler는 말합니다.
제출자 |
GPU 유형 |
GPU 수 |
단일 스트림 대기 시간(ms) |
다중 스트림 대기 시간(ms) |
샘플/s |
레노버 |
엔비디아 L4 |
2 |
0.39 |
0.75 |
25,600.00 |
레노버 |
엔비디아 L40S |
2 |
0.33 |
0.53 |
86,304.60 |
언테더AI |
UntetherAI speedAI240 미리보기 |
2 |
0.12 |
0.21 |
140,625.00 |
이미지 인식 작업에서 UntetherAI가 결과를 보고한 유일한 작업인 speedAI240 Preview 칩은 NVIDIA L40S의 대기 시간 성능을 2.8배, 처리량(초당 샘플)을 1.6배 앞지릅니다. 이 스타트업은 이 범주에서 전력 결과도 제출했지만 Nvidia 가속 경쟁사는 제출하지 않았기 때문에 직접 비교하기 어렵습니다. 그러나 UntetherAI의 speedAI240 Preview 칩의 칩당 공칭 전력 소모량은 150와트인 반면 Nvidia의 L40s의 경우 350와트로, 공칭 전력 소모량이 2.3배 감소하고 대기 시간은 개선되었습니다.
Cerebras, Furiosa, MLPerf 스킵, 하지만 새로운 칩 발표
어제 IEEE 핫 칩 스탠포드에서 열린 컨퍼런스에서 Cerebras는 자체 추론 서비스를 공개했습니다. 캘리포니아주 선니베일의 이 회사는 거대한 칩실리콘 웨이퍼가 허용하는 한 큰 크기로, 칩 간의 상호 연결을 피하고 대부분 대규모 신경망을 훈련하는 데 사용되는 장치의 메모리 대역폭을 크게 늘립니다. 이제 최신 컴퓨터를 사용하도록 소프트웨어 스택을 업그레이드했습니다. CS3 추론을 위해서.
Cerebras는 MLPerf에 제출하지 않았지만 해당 회사는 자사 플랫폼이 H100보다 7배 더 뛰어나고 경쟁 AI 스타트업보다 더 뛰어나다고 주장합니다. 그록스 칩은 초당 생성된 LLM 토큰에서 2배로 증가했습니다. Cerebras CEO 겸 공동 창립자인 Andrew Feldman은 “오늘날 우리는 Gen AI의 다이얼업 시대에 있습니다.”라고 말합니다. “메모리 대역폭 장벽이 있기 때문입니다. Nvidia의 H100이든 MI 300이든 TPU이든 모두 동일한 오프칩 메모리를 사용하고 동일한 제한이 발생합니다. 우리는 이를 돌파하고 웨이퍼 스케일이기 때문에 그렇게 합니다.”
Hot Chips는 또한 서울에 본사를 둔 맹렬한2세대 칩인 RNGD(발음은 “레니게이드”)를 소개합니다. Furiosa의 칩을 차별화하는 것은 Tensor Contraction Processor(TCP) 아키텍처입니다. AI 워크로드의 기본 연산은 행렬 곱셈으로, 일반적으로 하드웨어에서 기본으로 구현됩니다. 그러나 일반적으로 텐서라고 알려진 행렬의 크기와 모양은 크게 다를 수 있습니다. RNGD는 이 보다 일반화된 버전인 텐서의 곱셈을 대신 기본으로 구현합니다. “추론 중에 배치 크기는 크게 다르므로 주어진 텐서 모양에서 내재된 병렬성과 데이터 재사용을 활용하는 것이 중요합니다.” Furiosa 설립자 겸 CEO 준 페이크 Hot Chips에서 말했습니다.
MLPerf에 제출하지는 않았지만 Furiosa는 MLPerf의 LLM 요약 벤치마크에서 RNGD 칩의 성능을 사내에서 비교했습니다. L40S의 320W에 비해 185W의 전력만 사용하면서 Nvidia의 엣지 지향 L40S 칩과 동등한 성능을 보였습니다. 그리고 Paik은 소프트웨어 최적화를 통해 성능이 향상될 것이라고 말합니다.
IBM도 발표하다 새로운 Spyre 칩은 기업의 생성형 AI 워크로드에 맞춰 설계되었으며, 2025년 1분기에 출시될 예정입니다.
적어도 AI 추론 칩 시장의 구매자들은 가까운 미래에는 지루함을 느끼지 않을 것입니다.