기업들이 생성적 AI를 도입하고 새로운 서비스를 시장에 출시하기 위해 경쟁함에 따라 데이터 센터 인프라에 대한 요구는 그 어느 때보다 커졌습니다. 교육 대규모 언어 모델 하나의 과제는 LLM 기반 실시간 서비스를 제공하는 것이지만, 또 다른 과제는 LLM 기반 실시간 서비스를 제공하는 것입니다.
최신 MLPerf 산업 벤치마크인 Inference v4.1에서 NVIDIA 플랫폼은 모든 데이터 센터 테스트에서 최고의 성능을 제공했습니다. 다가올 최초의 제출 엔비디아 블랙웰 플랫폼은 기존 플랫폼보다 최대 4배 더 높은 성능을 보여주었습니다. NVIDIA H100 텐서 코어 GPU MLPerf의 가장 큰 LLM 작업 부하인 Llama 2 70B는 2세대 LLM을 사용하여 변압기 엔진 그리고 FP4 텐서 코어.
그만큼 NVIDIA H200 텐서 코어 GPU 데이터 센터 범주의 모든 벤치마크에서 뛰어난 결과를 제공했습니다. 여기에는 벤치마크에 가장 최근에 추가된 Mixtral 8x7B 전문가 혼합(MoE) LLM이 포함됩니다. 이 LLM은 총 467억 개의 매개변수를 제공하며 토큰당 129억 개의 매개변수가 활성화되어 있습니다.
MoE 모델은 다양한 질문에 답하고 단일 배포에서 더 다양한 작업을 수행할 수 있기 때문에 LLM 배포에 더 많은 다양성을 제공하는 방법으로 인기를 얻었습니다. 또한 추론당 몇 명의 전문가만 활성화하기 때문에 효율성이 더 높습니다. 즉, 비슷한 크기의 밀집 모델보다 훨씬 빠르게 결과를 제공합니다.
LLM의 지속적인 성장은 추론 요청을 처리하기 위한 더 많은 컴퓨팅에 대한 필요성을 촉진하고 있습니다. 오늘날의 LLM을 제공하기 위한 실시간 대기 시간 요구 사항을 충족하고 가능한 한 많은 사용자에게 제공하기 위해 다중 GPU 컴퓨팅이 필수입니다. NVIDIA NVLink 및 NVSwitch GPU 간 고대역폭 통신을 제공합니다. NVIDIA Hopper 아키텍처 실시간, 비용 효율적인 대규모 모델 추론에 상당한 이점을 제공합니다. Blackwell 플랫폼은 72개 GPU를 갖춘 더 큰 NVLink 도메인으로 NVLink 스위치의 기능을 더욱 확장합니다.
NVIDIA 제출 외에도 ASUSTek, Cisco, Dell Technologies, Fujitsu, Giga Computing, Hewlett Packard Enterprise(HPE), Juniper Networks, Lenovo, Quanta Cloud Technology 및 Supermicro를 포함한 10개의 NVIDIA 파트너가 모두 견고한 MLPerf 추론 제출을 통해 NVIDIA 플랫폼의 광범위한 가용성을 강조했습니다.
끊임없는 소프트웨어 혁신
NVIDIA 플랫폼은 지속적인 소프트웨어 개발을 거쳐 매달 성능과 기능이 개선됩니다.
최신 추론 라운드에서 NVIDIA Hopper 아키텍처를 포함한 NVIDIA 제품이 출시되었습니다. 엔비디아 젯슨 플랫폼 및 NVIDIA Triton 추론 서버성과 향상에 있어서 엄청난 폭의 성장을 이루었습니다.
NVIDIA H200 GPU는 이전 라운드보다 최대 27% 더 높은 생성적 AI 추론 성능을 제공하여 고객이 NVIDIA 플랫폼에 투자한 결과 시간이 지남에 따라 추가 가치를 얻게 되었음을 보여줍니다.
NVIDIA AI 플랫폼의 일부인 Triton Inference Server는 다음과 함께 제공됩니다. 엔비디아 AI 엔터프라이즈 소프트웨어는 조직이 프레임워크별 추론 서버를 단일 통합 플랫폼으로 통합하는 데 도움이 되는 모든 기능을 갖춘 오픈소스 추론 서버입니다. 이를 통해 프로덕션에서 AI 모델을 제공하는 데 드는 총 소유 비용을 낮추고 모델 배포 시간을 몇 개월에서 몇 분으로 단축할 수 있습니다.
이번 MLPerf 테스트에서 Triton Inference Server는 NVIDIA의 베어 메탈 제출물과 거의 동일한 성능을 제공하여 조직이 더 이상 기능이 풍부한 프로덕션 등급 AI 추론 서버와 최대 처리량 성능 달성 중에서 하나만 선택할 필요가 없음을 보여주었습니다.
엣지로 가다
엣지에 배포된 생성 AI 모델은 이미지 및 비디오와 같은 센서 데이터를 강력한 상황 인식을 통해 실시간으로 실행 가능한 통찰력으로 변환할 수 있습니다. 엣지 AI 및 로봇공학을 위한 NVIDIA Jetson 플랫폼은 LLM, 비전 트랜스포머 및 안정적 확산을 포함하여 모든 종류의 모델을 로컬로 실행할 수 있는 고유한 기능을 갖추고 있습니다.
이번 MLPerf 벤치마크 라운드에서는 NVIDIA Jetson AGX 음악 시스템 온 모듈 달성했다 이전 라운드에 비해 GPT-J LLM 워크로드에서 처리량이 6.2배 이상 향상되고 대기 시간이 2.4배 향상되었습니다. 특정 사용 사례를 위해 개발하는 대신, 개발자는 이제 이 범용 60억 매개변수 모델을 사용하여 인간 언어와 원활하게 인터페이스하여 엣지에서 생성 AI를 혁신할 수 있습니다.
전반적인 성과 리더십
이번 MLPerf Inference 라운드는 NVIDIA 플랫폼의 다양성과 선도적 성능을 보여주었습니다. 데이터 센터에서 엣지까지 모든 벤치마크 워크로드에서 가장 혁신적인 AI 기반 애플리케이션과 서비스를 강화했습니다. 이러한 결과에 대해 자세히 알아보려면 다음을 참조하세요. 기술 블로그.
H200 GPU 기반 시스템은 오늘부터 구매 가능합니다. 코어위브 — 일반 공급을 발표한 최초의 클라우드 서비스 제공업체이며, 서버 제조업체인 ASUS, Dell Technologies, HPE, QTC 및 Supermicro도 참여합니다.
보다 알아채다 소프트웨어 제품 정보에 관하여.