대규모의 최첨단 AI를 위한 오픈 소스 인프라 개발 가속화

0
5
대규모의-최첨단-ai를-위한-오픈-소스-인프라-개발-가속화
대규모의 최첨단 AI를 위한 오픈 소스 인프라 개발 가속화

클라우드 규모를 위한 컴퓨팅 인프라 구축에서 프론티어 규모를 위한 클라우드 및 AI 인프라 구축으로 전환하는 과정에서 컴퓨팅 세계는 혁신의 구조적 변화를 경험했습니다. 이 여정을 통해 Microsoft는 OCP(Open Compute Project) Global Foundation과 같은 업계 간 포럼에서 클라우드 인프라 스택을 최적화하면서 학습 내용과 모범 사례를 공유했습니다.

오늘날 우리는 클라우드 인프라 혁신의 다음 단계가 가장 중요한 변화의 시기가 될 준비가 되어 있음을 알고 있습니다. 작년에 Microsoft는 2기가와트 이상의 새로운 용량을 추가했으며 현재 세계에서 가장 빠른 슈퍼컴퓨터의 10배 성능을 제공하는 세계에서 가장 강력한 AI 데이터센터를 출시했습니다. 그러나 이것은 시작에 불과합니다.

최고의 성능과 최저 비용으로 AI 인프라를 제공하려면 스택 전반에 걸쳐 최적화를 통해 고객에게 일관된 경험을 제공할 수 있는 수준으로 품질, 속도 및 탄력성을 높이는 시스템 접근 방식이 필요합니다. 광범위한 AI 워크로드를 처리하기 위해 탄력적이고 지속 가능하며 안전하고 광범위하게 확장 가능한 기술을 공급하기 위한 탐구에서 우리는 야심 찬 새로운 여정을 시작하고 있습니다. 이는 실리콘에서 시스템까지 모든 실행 계층에서 인프라 혁신을 재정의하는 것뿐만 아니라 글로벌 상호 운용성 및 표준화를 위한 모델을 제공하는 표준에 대해 긴밀하게 통합된 업계 조정 중 하나입니다.

올해 OCP Global Summit에서 Microsoft는 업계 혁신을 더욱 발전시키기 위해 전력, 냉각, 지속 가능성, 보안, 네트워킹 및 차량 탄력성에 대한 새로운 표준을 제시하고 있습니다.

AI 시대를 위한 전력 분배 재정의

AI 워크로드가 전 세계적으로 확장됨에 따라 하이퍼스케일 데이터 센터는 전례 없는 전력 밀도 및 분배 문제를 겪고 있습니다.

작년 OCP Global Summit에서 우리는 분리된 전력 아키텍처인 Mt. Diablo 개발을 위해 Meta 및 Google과 파트너십을 맺었습니다. 올해 우리는 계속해서 발전해 나가고 있습니다. 이러한 혁신은 풀스택 혁신의 다음 단계를 통해 이루어집니다. 데이터 센터 전력 시스템: 솔리드 스테이트 변압기. 무접점 변압기는 미래의 랙 전압 요구 사항을 수용할 수 있는 새로운 변환 기술과 보호 체계를 통해 전력 체인을 단순화합니다.

수천 개의 GPU에 걸쳐 대규모 모델을 훈련하면 그리드에 부담을 줄 수 있는 가변적이고 강렬한 전력 소비 패턴이 도입됩니다. 유틸리티 및 기존 전력 공급 시스템. 이러한 변동은 하드웨어 안정성과 운영 효율성을 위협할 뿐만 아니라 용량 계획 및 지속 가능성 목표 전반에 걸쳐 문제를 야기합니다.

Microsoft는 주요 업계 파트너와 함께 이러한 문제를 해결하기 위해 전력 안정화 이니셔티브를 주도하고 있습니다. OpenAI와 NVIDIA가 최근 발표한 논문에서—AI 훈련 데이터센터를 위한 전력 안정화—랙 수준 하드웨어, 펌웨어 오케스트레이션, 예측 원격 측정 및 시설 통합을 포괄하는 전체 스택 혁신을 통해 전력 스파이크를 완화하고 전력 오버슈트를 40% 줄이며 운영 위험과 비용을 완화하여 AI 교육 클러스터에 예측 가능하고 확장 가능한 전력 공급을 지원하는 방법을 설명합니다.

올해 OCP Global Summit에서 Microsoft는 업계 파트너와 힘을 합쳐 전력 안정화 전용 작업 그룹을 출범시킬 예정입니다. 우리의 목표는 하이퍼스케일러와 하드웨어 파트너 간의 개방형 협업을 촉진하고, 풀 스택 혁신을 통해 얻은 교훈을 공유하고, AI 교육 데이터 센터의 고유한 전력 문제를 해결하는 새로운 방법론을 공동 개발하도록 커뮤니티를 초대하는 것입니다. 최근 발표된 백서의 통찰력을 바탕으로 차세대 AI 인프라를 위한 탄력적이고 확장 가능한 전력 공급 솔루션의 업계 전반의 채택을 가속화하는 것을 목표로 합니다. 전력 안정화 노력에 대해 자세히 알아보세요..

탄력성을 위한 냉각 혁신

AI 인프라의 전력 프로필이 변화함에 따라 우리는 에너지 소비, 공간 최적화 및 전반적인 데이터 센터 지속 가능성에 대한 진화하는 요구 사항을 지원하기 위해 냉각 인프라를 계속 재설계하고 있습니다. 확장 규모를 지원하려면 다양한 냉각 솔루션을 구현해야 합니다. 새로운 AI 규모 데이터 센터를 구축하려고 할 때 HXU(열교환기 장치) 기반 액체 냉각을 활용하여 기존 공냉식 데이터 센터 공간 내에 새로운 AI 용량을 신속하게 배포하고 있습니다.

Microsoft의 차세대 HXU는 공냉식 데이터 센터의 고성능 AI 시스템에 대한 액체 냉각을 가능하게 하고 글로벌 확장성과 신속한 배포를 지원하는 곧 출시될 OCP 기여입니다. 모듈식 HXU 설계는 현재 모델보다 2배 향상된 성능을 제공하고 AI 워크로드에 대해 99.9% 이상의 냉각 서비스 가용성을 유지합니다. 데이터 센터 수정이 필요하지 않으므로 원활한 통합과 확장이 가능합니다. 여기에서 차세대 HXU에 대해 자세히 알아보세요.

한편, 우리는 전력 및 열 방출의 변화를 해결하기 위해 스택의 여러 계층에 걸쳐 계속 혁신하고 있습니다. 즉, 데이터 센터 규모의 시설 수냉을 활용하고 서버에서 냉각기로 폐쇄 루프로 액체를 순환시킵니다. 실리콘에서 직접 열을 효율적으로 제거하기 위해 미세유체공학과 같은 온칩 냉각 혁신을 탐구합니다.

증가하는 인프라 수요를 위한 통합 네트워킹 솔루션

수십만 개의 GPU를 확장하여 일관된 단일 시스템으로 작동하려면 효율적이고 상호 운용 가능한 낮은 대기 시간, 고대역폭 패브릭을 제공할 수 있는 랙 규모 상호 연결을 생성해야 하는 중요한 과제가 있습니다. AI 워크로드가 기하급수적으로 증가하고 인프라 요구 사항이 강화됨에 따라 우리는 이러한 요구 사항을 지원할 수 있는 네트워킹 최적화를 모색하고 있습니다. 이를 위해 우리는 대규모 분산 교육을 가능하게 하는 스케일 업, 스케일 아웃 및 광역 네트워크(WAN) 솔루션을 활용하는 솔루션을 개발했습니다.

우리는 UEC(Ultra Ethernet Consortium) 및 UALink와 같은 표준 기관과 긴밀히 협력하여 AI 시스템의 중요한 요소에 대한 네트워킹 기술 혁신에 중점을 두고 있습니다. 우리는 또한 생태계 전반의 네트워킹 확장을 위해 이더넷 채택을 추진하고 있으며, OCP 네트워킹 프로젝트에 따라 ESUN(Ethernet for Scale-up Networking) 작업 스트림 출시. 우리는 최첨단 네트워킹 솔루션의 채택을 촉진하고 개방형 표준을 기반으로 하는 다중 공급업체 생태계를 활성화할 수 있기를 기대합니다.

보안, 지속 가능성 및 품질: 탄력적인 AI 운영을 위한 기본 요소

심층 방어: 모든 계층의 신뢰

AI 시스템을 책임감 있게 확장하기 위한 우리의 포괄적인 접근 방식에는 플랫폼의 모든 계층에 신뢰와 보안을 내장하는 것이 포함됩니다. 올해 우리는 하드웨어 보안 분야의 기존 작업을 기반으로 하는 새로운 보안 기여를 소개하고 AI 도입으로 가속화된 새로운 과학적 혁신을 지원하는 데 고유하게 적합한 새로운 프로토콜을 소개합니다.

  • 지난 수년간의 기여와 Microsoft와 AMD, Google 및 NVIDIA의 협력을 바탕으로 우리는 오픈 소스 실리콘 신뢰 루트인 Caliptra를 더욱 향상시켰습니다. Caliptra 2.1의 도입으로 하드웨어 신뢰 루트가 전체 보안 하위 시스템으로 확장되었습니다. 여기에서 Caliptra 2.1에 대해 자세히 알아보세요..
  • 또한 Caliptra에 Adams Bridge 2.0을 추가하여 양자 복원력이 있는 암호화 알고리즘에 대한 지원을 루트 오브 트러스트까지 확장했습니다.
  • 마지막으로 우리는 하드웨어에서 미디어 암호화 키를 보호하는 저장 장치용 키 관리 블록인 OCP 계층형 오픈 소스 암호화 키 관리(LOCK)를 제공하고 있습니다. LOCK은 Google, Kioxia, Microsoft, Samsung, Solidigm의 ​​협업을 통해 개발되었습니다.

데이터 센터 규모의 지속 가능성 향상

지속 가능성은 오픈 컴퓨트 프로젝트(Open Compute Project)와 같은 커뮤니티를 통해 업계 협업 및 표준화를 위한 주요 기회 영역이 되고 있습니다. 하이퍼스케일러와 하드웨어 파트너의 생태계로서 협력하는 것은 컴퓨팅 수요가 계속 진화함에 따라 효과적으로 확장할 수 있는 지속 가능한 데이터 센터 인프라의 요구 사항을 해결하는 하나의 촉매제입니다. 올해 우리는 탄소 보고, 회계, 순환성과 같은 분야에 걸쳐 OCP의 지속 가능성 작업 그룹의 일환으로 협력을 계속하게 된 것을 기쁘게 생각합니다.

  • 올해 글로벌 서밋에서 발표된 바와 같이, 우리는 장치 및 데이터 센터 장비에 대한 탄소 측정 방법론 표준화를 목표로 AWS, Google 및 Meta와 협력하여 OCP 지속 가능성 작업 그룹의 제품 범주 규칙 이니셔티브에 자금을 지원하고 있습니다.
  • Google, Meta, OCP, Schneider Electric 및 iMasons Climate Accord와 함께 우리는 구체화된 탄소 공개 기본 사양 데이터 센터 장비의 탄소 영향을 보고하기 위한 공통 프레임워크를 구축합니다.
  • Microsoft는 WHR(폐열 재사용) 채택을 추진하고 있습니다. NetZero Innovation Hub, NREL, EU 및 미국 협력업체와 협력하여 Microsoft는 열 재사용 레퍼런스 디자인 WHR 시스템의 규모와 용량, 계절, 위치, WHR 의무 사항 및 보조금과 같은 조건을 기반으로 데이터 센터 운영자와 폐열 수집자/소비자에게 폐열 재사용 인프라를 개발하는 데 소요되는 비용을 제공하는 경제 모델링 도구를 개발하고 있습니다. 이러한 지역별 솔루션은 운영자가 과도한 열을 사용 가능한 에너지로 전환하여 규제 요구 사항을 충족하고 특히 열 재사용이 의무화되는 유럽과 같은 지역에서 새로운 용량을 확보하는 데 도움이 됩니다.
  • 우리는 지속 가능한 클라우드 인프라의 “최적 표준”을 향해 나아가기 위해 대규모 IT 하드웨어 전체에 걸쳐 대규모 LCA(수명 주기 평가)를 위한 개방형 방법론을 개발했습니다.

노드 관리 재고: 프론티어 시대를 위한 함대 운영 탄력성

AI 인프라가 전례 없는 속도로 확장됨에 따라 Microsoft는 하이퍼스케일 데이터 센터 전반에 걸쳐 다양한 컴퓨팅 노드가 배포, 업데이트, 모니터링 및 서비스되는 방식을 표준화하는 데 투자하고 있습니다. AMD, Arm, Google, Intel, Meta 및 NVIDIA와 협력하여 당사는 차량 운영 간소화, 펌웨어 관리 통합, 관리 용이성 인터페이스, 진단, 디버그 및 RAS(신뢰성, 가용성 및 서비스 가능성) 기능 향상에 초점을 맞춘 일련의 OCP(오픈 컴퓨팅 프로젝트) 기여를 추진하고 있습니다. 수명주기 관리에 대한 표준화된 접근 방식은 급속한 확장 기간 동안 일관되고 확장 가능한 노드 운영을 위한 기반을 마련합니다. 탄력적인 차량 운영에 대한 당사의 접근 방식에 대해 자세히 알아보세요..

최첨단 규모의 AI 컴퓨팅을 위한 길을 닦다

최첨단 AI 개발의 새로운 시대를 맞이하면서 Microsoft는 전 세계적으로 배포 가능한 AI 슈퍼컴퓨팅의 미래를 주도할 표준 발전을 주도하는 데 자부심을 갖고 있습니다. 우리의 헌신은 우리의 적극적인 역할에 반영됩니다. 생태계를 형성하는데 있어서 전 세계적으로 확장 가능하고 안전하며 안정적인 AI 인프라를 지원합니다. 올해 OCP Global Summit 참석자들을 부스 #B53에서 Microsoft와 연결하여 최신 클라우드 하드웨어 데모를 살펴보실 수 있도록 초대합니다. 이러한 시연에서는 OCP 커뮤니티 전체의 파트너와의 지속적인 협력을 보여주며 AI 및 클라우드 기술의 발전을 지원하는 혁신을 강조합니다.

OCP Global Summit 2025 및 이후 행사에서 Microsoft와 소통하세요

게시물 대규모의 최첨단 AI를 위한 오픈 소스 인프라 개발 가속화 처음 등장한 Microsoft AI 블로그.