Microsoft, AI 및 클라우드 성능 향상을 위한 맞춤형 실리콘 칩 공개

ceprodblogsupp

1년 ago

범주: 일체 포함

Microsoft, AI 및 클라우드 성능 향상을 위한 맞춤형 실리콘 칩 공개

에 의해

로버트 치우루스

2024년 7월 31일

Microsoft의 Redmond 캠퍼스에 숨겨진 실험실에는 디지털 시대의 기본 구성 요소인 실리콘을 조사하는 기계로 가득합니다. 이 다단계 프로세스는 Microsoft 엔지니어가 수년간 비밀리에 개선해 온 방법으로 실리콘을 꼼꼼하게 테스트합니다.

오늘 Microsoft Ignite에서 회사는 이러한 여정의 결과로 맞춤형으로 설계된 두 가지 칩과 통합 시스템을 공개했습니다. 즉, 인공 지능(AI) 작업과 생성 AI에 최적화된 Microsoft Azure Maia AI Accelerator와 Microsoft 클라우드에서 범용 컴퓨팅 워크로드를 실행하도록 맞춤화된 Arm 기반 프로세서인 Microsoft Azure Cobalt CPU입니다.

이 칩은 실리콘 선택, 소프트웨어, 서버부터 랙과 냉각 시스템까지 모든 것을 포함하는 인프라 시스템을 제공하기 위한 Microsoft의 마지막 퍼즐 조각입니다. 이러한 시스템은 처음부터 끝까지 설계되었으며 내부 및 고객 작업 부하를 염두에 두고 최적화할 수 있습니다.

이 칩은 내년 초에 Microsoft의 데이터 센터에 출시될 예정이며, 처음에는 Microsoft Copilot이나 Azure OpenAI Service와 같은 회사의 서비스에 전원을 공급할 예정입니다. 이 칩은 업계 파트너의 확장되는 제품군에 합류하여 효율적이고 확장 가능하며 지속 가능한 컴퓨팅 파워에 대한 폭발적인 수요와 최신 클라우드 및 AI 혁신을 활용하고자 하는 고객의 요구를 충족하는 데 도움이 될 것입니다.

Microsoft의 클라우드 + AI 그룹의 수석 부사장인 스콧 거스리는 “Microsoft는 AI 혁신을 지원하는 인프라를 구축하고 있으며, 고객의 요구를 충족하기 위해 데이터 센터의 모든 측면을 재구성하고 있습니다.”라고 말했습니다. “운영 규모에 따라 인프라 스택의 모든 계층을 최적화하고 통합하여 성능을 극대화하고 공급망을 다양화하며 고객에게 인프라 선택권을 제공하는 것이 중요합니다.”

스택의 모든 계층 최적화

칩은 클라우드의 일꾼입니다. 칩은 데이터 센터를 흐르는 방대한 1과 0 스트림을 처리하는 수십억 개의 트랜지스터를 명령합니다. 이 작업을 통해 궁극적으로 이메일을 보내는 것부터 간단한 문장으로 Bing에서 이미지를 생성하는 것까지 화면에서 거의 모든 것을 할 수 있습니다.

집을 짓는 것이 모든 디자인 선택과 세부 사항을 제어할 수 있는 것과 마찬가지로, Microsoft는 자체 칩을 추가하는 것이 모든 요소가 Microsoft 클라우드 및 AI 워크로드에 맞게 조정되도록 하는 방법이라고 생각합니다. 칩은 기존 Microsoft 데이터 센터에 쉽게 맞는 맞춤형 랙에 배치된 맞춤형 서버 보드에 자리 잡을 것입니다. 하드웨어는 소프트웨어와 함께 작동하여 새로운 기능과 기회를 열어주기 위해 함께 설계됩니다.

Azure 하드웨어 시스템 및 인프라(AHSI)의 기업 부사장인 라니 보카르(Rani Borkar)는 최종 목표는 최대한의 유연성을 제공하고 전력, 성능, 지속 가능성 또는 비용에 따라 최적화할 수 있는 Azure 하드웨어 시스템이라고 말했습니다.

Microsoft Ignite에서 회사는 또한 이러한 핵심 구성 요소 중 하나인 Azure Boost의 일반 공급을 발표했습니다. Azure Boost는 호스트 서버에서 해당 프로세스를 특수 목적으로 제작된 하드웨어 및 소프트웨어로 옮겨 저장 및 네트워킹을 더 빠르게 만드는 시스템입니다.

Microsoft는 맞춤형 실리콘 노력을 보완하기 위해 고객에게 더 많은 인프라 옵션을 제공하기 위해 업계 파트너십을 확대한다고 발표했습니다. Microsoft는 NVIDIA H100 Tensor Core GPU용으로 제작된 새로운 NC H100 v5 가상 머신 시리즈의 미리보기를 출시하여 중간 범위의 AI 교육 및 생성 AI 추론에 더 큰 성능, 안정성 및 효율성을 제공합니다. Microsoft는 또한 내년에 최신 NVIDIA H200 Tensor Core GPU를 자사 제품군에 추가하여 대기 시간 감소 없이 더 큰 모델 추론을 지원할 예정입니다.

서버실에서 일하는 사람

이 회사는 또한 Azure에 AMD MI300X 가속 VM을 추가할 것이라고 발표했습니다. ND MI300 가상 머신은 고범위 AI 모델 훈련 및 생성 추론을 위한 AI 워크로드 처리를 가속화하도록 설계되었으며 AMD의 최신 GPU인 AMD Instinct MI300X를 탑재할 예정입니다.

Borkar는 업계 파트너들의 칩과 하드웨어로 구성된 성장하는 생태계에 자체 실리콘을 추가함으로써 Microsoft는 고객에게 가격과 성능 면에서 더 많은 선택권을 제공할 수 있을 것이라고 말했습니다.

“고객 집착은 우리가 고객에게 가장 좋은 것을 제공한다는 것을 의미하며, 이는 생태계에서 이용 가능한 것과 우리가 개발한 것을 모두 사용한다는 것을 의미합니다.” 그녀는 말했습니다. “우리는 모든 파트너와 협력하여 고객이 원하는 것을 고객에게 제공할 것입니다.”

공동 진화하는 하드웨어와 소프트웨어

이 회사의 새로운 Maia 100 AI Accelerator는 Microsoft Azure에서 실행되는 가장 큰 내부 AI 워크로드 중 일부를 구동합니다. 또한 OpenAI는 Azure Maia에 대한 피드백을 제공했으며, Microsoft는 OpenAI의 워크로드가 대규모 언어 모델에 맞게 조정된 인프라에서 어떻게 실행되는지에 대한 심층적인 통찰력을 제공하여 향후 Microsoft 설계에 도움이 됩니다.

OpenAI의 CEO인 샘 알트먼은 “Microsoft와 처음 파트너십을 맺은 이래로, 우리는 모델과 전례 없는 훈련 요구 사항에 맞춰 Azure의 AI 인프라를 모든 계층에서 공동 설계하기 위해 협력했습니다.”라고 말했습니다. “Microsoft가 처음으로 Maia 칩에 대한 설계를 공유했을 때 우리는 흥분했고, 우리는 함께 협력하여 모델을 개선하고 테스트했습니다. Maia로 실리콘까지 최적화된 Azure의 엔드투엔드 AI 아키텍처는 더 유능한 모델을 훈련하고 고객에게 이러한 모델을 더 저렴하게 제공할 수 있는 길을 열었습니다.”

Maia 100 AI Accelerator는 또한 Azure 하드웨어 스택을 위해 특별히 설계되었다고 Azure Maia 팀을 이끄는 Microsoft 기술 펠로우인 Brian Harry가 말했습니다. 그는 이러한 수직적 통합, 즉 Microsoft의 워크로드를 염두에 두고 설계된 대규모 AI 인프라와 칩 설계를 일치시키는 것이 성능과 효율성에서 엄청난 이득을 가져올 수 있다고 말했습니다.

그는 “Azure Maia는 AI를 위해 특별히 설계되었으며 하드웨어의 절대 최대 활용을 달성하도록 설계되었습니다.”라고 말했습니다.

한편, Cobalt 100 CPU는 에너지 효율적인 칩 설계 유형인 Arm 아키텍처를 기반으로 구축되었으며, 클라우드 네이티브 오퍼링에서 더 큰 효율성과 성능을 제공하도록 최적화되었다고 하드웨어 제품 개발 부문 부사장인 Wes McCullough가 말했습니다. Arm 기술을 선택하는 것은 Microsoft의 지속 가능성 목표에서 핵심 요소였습니다. Microsoft는 데이터 센터 전체에서 “와트당 성능”을 최적화하는 것을 목표로 하며, 이는 본질적으로 소비되는 에너지 단위당 더 많은 컴퓨팅 파워를 얻는 것을 의미합니다.

그는 “아키텍처와 구현은 전력 효율성을 염두에 두고 설계되었습니다.”라고 말했습니다. “우리는 실리콘의 트랜지스터를 가장 효율적으로 사용하고 있습니다. 모든 데이터 센터의 서버에서 이러한 효율성 향상을 곱하면 꽤 큰 숫자가 됩니다.”

칩부터 데이터센터까지 맞춤형 하드웨어

AHSI 팀의 파트너 프로그램 관리자인 팻 스테멘은 2016년 이전에는 Microsoft 클라우드의 대부분 계층이 기성품으로 구매되었다고 말했습니다. 그런 다음 Microsoft는 자체 서버와 랙을 맞춤 제작하여 비용을 절감하고 고객에게 보다 일관된 경험을 제공하기 시작했습니다. 시간이 지남에 따라 실리콘이 가장 중요한 누락된 부분이 되었습니다.

Microsoft는 자체 맞춤형 실리콘을 구축할 수 있는 기능을 통해 특정 품질을 목표로 삼고 칩이 가장 중요한 워크로드에서 최적의 성능을 발휘하도록 할 수 있습니다. 테스트 프로세스에는 각 칩이 다양한 주파수, 온도 및 전력 조건에서 최고의 성능을 발휘하는 방식을 결정하고, 가장 중요한 것은 실제 Microsoft 데이터 센터에서 경험할 수 있는 동일한 조건 및 구성에서 각 칩을 테스트하는 것이 포함됩니다.

Microsoft는 오늘 공개된 실리콘 아키텍처를 통해 냉각 효율성을 향상시킬 뿐만 아니라 현재 데이터센터 자산의 활용을 최적화하고 기존 설치 공간 내에서 서버 용량을 극대화할 수 있다고 밝혔습니다.

예를 들어, Maia 100 서버 보드의 고유한 요구 사항을 수용할 랙이 존재하지 않았습니다. 그래서 Microsoft는 이를 처음부터 구축했습니다. 이러한 랙은 일반적으로 회사의 데이터 센터에 있는 것보다 더 넓습니다. 확장된 디자인은 AI 워크로드의 고유한 요구 사항에 필수적인 전원 및 네트워킹 케이블을 위한 충분한 공간을 제공합니다.

이러한 AI 작업에는 더 많은 전력을 소모하는 집중적인 계산 요구 사항이 따릅니다. 기존의 공랭 방식은 이러한 고성능 칩에 미치지 못합니다. 그 결과, 순환 유체를 사용하여 열을 발산하는 액체 냉각이 이러한 열적 문제에 대한 선호되는 솔루션으로 부상하여 과열 없이 효율적으로 실행되도록 보장합니다.

하지만 Microsoft의 현재 데이터 센터는 대형 액체 냉각기에 맞게 설계되지 않았습니다. 그래서 Maia 100 랙 옆에 있는 “사이드킥”을 개발했습니다. 이 사이드킥은 자동차의 라디에이터와 비슷하게 작동합니다. 차가운 액체는 사이드킥에서 Maia 100 칩 표면에 부착된 차가운 판으로 흐릅니다. 각 판에는 액체가 순환하여 열을 흡수하고 전달하는 채널이 있습니다. 그것은 사이드킥으로 흐르고, 사이드킥은 액체에서 열을 제거하고 랙으로 다시 보내 더 많은 열을 흡수합니다.

McCullough는 랙과 사이드킥의 탠덤 디자인은 인프라에 대한 시스템적 접근 방식의 가치를 강조한다고 말했습니다. Cobalt 100 칩의 저전력 정신에서 데이터센터 냉각의 복잡성에 이르기까지 모든 측면을 제어함으로써 Microsoft는 각 구성 요소 간의 조화로운 상호 작용을 조율하여 환경 영향을 줄이는 데 있어 전체가 실제로 부분의 합보다 더 크다는 것을 보장할 수 있습니다.

Microsoft는 맞춤형 랙에서 얻은 설계 교훈을 업계 파트너와 공유했으며, 어떤 실리콘 조각이 내부에 있든 이를 사용할 수 있다고 Stemen은 말했습니다. 그는 “인프라, 소프트웨어 또는 펌웨어 등 우리가 만드는 모든 것은 자사 칩을 배포하든 업계 파트너의 칩을 배포하든 활용할 수 있습니다.”라고 말했습니다. “이것은 고객이 내리는 선택이며, 우리는 성능, 비용 또는 고객이 신경 쓰는 다른 차원이든 고객에게 최상의 옵션 세트를 제공하려고 노력하고 있습니다.”

Microsoft는 향후 이러한 옵션 세트를 확장할 계획이며, 이미 Azure Maia AI Accelerator 시리즈와 Azure Cobalt CPU 시리즈의 2세대 버전을 설계하고 있습니다. Stemen은 회사의 사명은 여전히 명확하다고 말했습니다. 핵심 실리콘에서 최종 서비스까지 기술 스택의 모든 계층을 최적화하는 것입니다.

“Microsoft 혁신은 이 실리콘 작업으로 스택에서 더 아래로 내려가 Azure에서 고객 워크로드의 미래를 보장하고 성능, 전력 효율성 및 비용을 우선시합니다.”라고 그는 말했습니다. “우리는 고객이 오늘과 미래에 Azure에서 최상의 경험을 얻을 수 있도록 의도적으로 이 혁신을 선택했습니다.”