Microsoft Azure는 OpenAI 워크로드용 NVIDIA GB300 NVL72를 갖춘 최초의 대규모 클러스터를 제공합니다.

0
6
microsoft-azure는-openai-워크로드용-nvidia-gb300-nvl72를-갖춘-최초의-대규모-클러스터를-제공합니다.
Microsoft Azure는 OpenAI 워크로드용 NVIDIA GB300 NVL72를 갖춘 최초의 대규모 클러스터를 제공합니다.

Microsoft는 다음을 제공합니다. 차세대 NVIDIA InfiniBand 네트워크를 통해 연결된 NVIDIA Blackwell Ultra GPU를 갖춘 4,600개 이상의 NVIDIA GB300 NVL72를 갖춘 최초의 대규모 프로덕션 클러스터. 이 클러스터는 수십만 개의 Blackwell Ultra GPU로 확장되는 많은 클러스터 중 첫 번째 클러스터입니다. Microsoft의 AI 데이터 센터에 배포 이는 AI 인프라를 재정의하고 NVIDIA와의 협력을 향한 우리의 지속적인 노력을 반영합니다. Blackwell Ultra GPU가 탑재된 대규모 클러스터는 몇 달이 아닌 몇 주 만에 모델 교육을 가능하게 하여 추론 워크로드에 대한 높은 처리량을 제공합니다. 또한 우리는 더 크고 더 강력한 모델을 개발하고 있으며 수백 조 개의 매개변수가 있는 훈련 모델을 최초로 지원하게 될 것입니다.

이는 하드웨어, 시스템, 공급망, 시설, 기타 여러 분야는 물론 NVIDIA와의 협업을 통해 가능해졌습니다.

Microsoft Azure의 NVIDIA GB300 NVL72 슈퍼클러스터 출시는 최첨단 AI 발전의 흥미로운 단계입니다. 공동 엔지니어링된 이 시스템은 세계 최초의 대규모 GB300 생산 클러스터를 제공하여 OpenAI가 수조 매개변수 모델을 제공하는 데 필요한 슈퍼컴퓨팅 엔진을 제공합니다. 이는 가속 컴퓨팅에 대한 확실한 새로운 표준을 설정합니다.

Ian Buck, NVIDIA 하이퍼스케일 및 고성능 컴퓨팅 담당 부사장

NVIDIA GB200에서 GB300까지: AI 성능의 새로운 표준

올해 초, Azure는 ND GB200 v6 가상 머신(VM)을 도입했습니다.NVIDIA의 Blackwell 아키텍처로 가속화되었습니다. 이는 이미 Azure에서 대규모 GB200 NVL2 클러스터를 사용하여 프론티어 모델을 교육하고 배포하는 OpenAI 및 Microsoft와 같은 조직을 포함하여 업계에서 가장 까다로운 AI 워크로드 중 일부의 백본이 되었습니다.

이제 ND GB300 v6 VM을 통해 Azure는 기준을 다시 높이고 있습니다. 이러한 VM은 추론 모델, 에이전트 AI 시스템 및 다중 모드 생성 AI에 최적화되어 있습니다. 랙 규모 시스템을 기반으로 구축된 각 랙에는 총 72개의 GPU를 갖춘 18개의 VM이 있습니다.

  • 72개의 NVIDIA Blackwell Ultra GPU(36개의 NVIDIA Grace CPU 포함).
  • 차세대 NVIDIA Quantum-X800 InfiniBand(2x GB200 NVL72)를 통해 GPU 간 랙 확장 대역폭당 초당 800기가비트(Gbp/s).
  • 랙 내 NVIDIA NVLink 대역폭은 초당 130테라바이트(TB)입니다.
  • 37TB의 빠른 메모리.
  • 최대 1,440페타플롭(PFLOPS)의 FP4 Tensor Core 성능.
Blackwell Ultra GPU와 NVIDIA GB300 NVL72를 갖춘 Azure 서버를 닫습니다.

대규모 AI 슈퍼컴퓨팅을 위한 구축

최첨단 AI를 위한 인프라를 구축하려면 컴퓨팅, 메모리, 네트워킹, 데이터 센터, 냉각, 전력 등 스택의 모든 계층을 통합 시스템으로 재구성해야 합니다. ND GB300 v6 VM은 실리콘, 시스템 및 소프트웨어 전반에 걸쳐 수년간의 협력을 통해 얻은 이러한 변화를 명확하게 보여줍니다.

랙 수준에서 NVLink 및 NVSwitch는 메모리 및 대역폭 제약을 줄여 총 37TB의 고속 메모리를 연결하는 랙 내 데이터 전송을 초당 최대 130TB까지 가능하게 합니다. 각 랙은 긴밀하게 결합된 장치가 되어 더 큰 모델과 더 긴 컨텍스트 창에서 지연 시간을 줄이고 더 높은 추론 처리량을 제공하여 에이전트 및 다중 모달 AI 시스템이 그 어느 때보다 반응성과 확장성이 향상되도록 지원합니다.

랙 이상으로 확장하기 위해 Azure는 현재 사용 가능한 가장 빠른 네트워킹 패브릭인 NVIDIA Quantum-X800 Gbp/s InfiniBand를 사용하여 완전한 팻 트리, 비차단 아키텍처를 배포합니다. 이를 통해 고객은 최소한의 통신 오버헤드로 초대형 모델의 훈련을 수만 개의 GPU로 효율적으로 확장할 수 있으므로 더 나은 엔드투엔드 훈련 처리량을 제공할 수 있습니다. 또한 동기화 오버헤드가 줄어들면 GPU 활용도가 극대화되어 연구자들이 AI 교육 워크로드의 컴퓨팅 사용량이 많은 특성에도 불구하고 더 빠르고 저렴한 비용으로 반복할 수 있습니다. 사용자 지정 프로토콜, 집단 라이브러리 및 네트워크 내 컴퓨팅을 포함하여 Azure의 공동 엔지니어링 스택은 네트워크의 안정성을 높이고 애플리케이션에서 완벽하게 활용하도록 보장합니다. NVIDIA SHARP와 같은 기능은 스위치에서 수학을 수행하여 집단 작업을 가속화하고 유효 대역폭을 두 배로 늘려 대규모 훈련과 추론을 더욱 효율적이고 안정적으로 만듭니다.

Azure의 고급 냉각 시스템은 독립형 열교환기 장치와 시설 냉각을 사용하여 물 사용량을 최소화하는 동시에 GB300 NVL72와 같은 밀도가 높은 고성능 클러스터의 열 안정성을 유지합니다. 또한 우리는 ND GB300 v6 VM 클래스 GPU 클러스터에 필요한 높은 에너지 밀도와 동적 로드 밸런싱을 지원할 수 있는 새로운 전력 분배 모델을 계속 개발하고 배포하고 있습니다.

또한 스토리지, 오케스트레이션 및 스케줄링을 위해 재설계된 소프트웨어 스택은 컴퓨팅, 네트워킹, 스토리지 및 데이터 센터 인프라를 슈퍼컴퓨팅 규모로 완벽하게 사용하도록 최적화되어 고객에게 높은 효율성으로 전례 없는 수준의 성능을 제공합니다.

Azure AI 인프라에 NVIDIA GB300 NVL72를 갖춘 랙의 서버 블레이드입니다.

앞을 내다보며

Microsoft는 최신 기술을 빠르게 활성화하고 전환할 수 있도록 수년간 AI 인프라에 투자해 왔습니다. 그 이유이기도 하다 하늘빛 오늘날 최첨단 AI의 요구 사항을 충족하기 위해 생산 규모에서 GB300 NVL72 인프라를 빠른 속도로 제공할 수 있는 독보적인 위치에 있습니다.

Azure가 전 세계적으로 GB300 배포를 계속 확대함에 따라 고객은 이전 세대에 비해 훨씬 짧은 시간에 새 모델을 훈련하고 배포할 수 있을 것으로 기대할 수 있습니다. ND GB300 v6 VM v6은 AI 인프라의 새로운 표준이 될 준비가 되어 있으며, Azure는 고객이 최첨단 AI 개발을 발전시킬 수 있도록 지원하는 것을 자랑스럽게 생각합니다.

Azure가 NVIDIA GB300 NVL72의 프로덕션 배포를 전 세계적으로 확장함에 따라 더 많은 업데이트와 성능 벤치마크를 계속 지켜봐 주시기 바랍니다.

여기에서 NVIDIA에 대한 자세한 내용을 읽어보세요.

게시물 Microsoft Azure는 OpenAI 워크로드용 NVIDIA GB300 NVL72를 갖춘 최초의 대규모 클러스터를 제공합니다. 처음 등장한 Microsoft AI 블로그.