Sustainable by design 블로그 시리즈를 통해 지속 가능성 공약을 달성하기 위해 우리가 어떻게 진전을 이루고 있는지 자세히 알아보세요. 지속 가능한 설계: AI의 지속 가능성 향상.
이번 여름 초, 제 동료 Noelle Walsh는 데이터 센터 운영에서 물을 절약하기 위해 어떻게 노력하고 있는지 자세히 설명하는 블로그를 게시했습니다. 설계에 따른 지속 가능성: 데이터 센터 물 효율성 혁신탄소 음성화, 물 양성화, 폐기물 제로, 생물 다양성 보호라는 지속 가능성 목표를 달성하기 위한 우리의 노력의 일환으로.
Microsoft에서는 데이터센터부터 서버, 맞춤형 실리콘에 이르기까지 전체 스택에 걸쳐 클라우드 컴퓨팅 인프라를 설계, 구축, 운영합니다. 이를 통해 성능과 효율성을 모두 향상시키기 위해 요소가 어떻게 함께 작동하는지 조율할 수 있는 고유한 기회가 생깁니다. 우리는 전력 및 에너지 효율성을 최적화하는 작업을 2030년까지 탄소 음성이 되겠다는 약속을 이행하는 중요한 경로로 간주하며, 탄소 없는 전기와 탄소 제거를 발전시키는 작업도 함께 수행합니다.
발견의 다음 전선을 촉진하기 위한 AI 혁신에 대한 수요의 급속한 성장은 우리에게 우리의 재설계 기회를 제공했습니다. 인프라 시스템데이터센터에서 서버, 실리콘에 이르기까지 효율성과 지속 가능성을 최우선으로 합니다. 탄소 없는 전기를 공급하는 것 외에도, 우리는 스택의 모든 단계에서 혁신을 일으켜 클라우드와 AI 워크로드의 에너지 강도와 전력 요구 사항을 줄이고 있습니다. 전자가 데이터센터에 들어오기 전에도, 우리 팀은 각 킬로와트시(kWh)의 전력에서 생성할 수 있는 컴퓨팅 전력을 극대화하는 방법에 집중하고 있습니다.
이 블로그에서는 AI의 전력과 에너지 효율성을 어떻게 발전시키고 있는지에 대한 몇 가지 사례를 공유하고자 합니다. 여기에는 효율성에 대한 전체 시스템 접근 방식과 AI, 특히 머신 러닝을 클라우드 및 AI 워크로드 관리에 적용하는 것이 포함됩니다.
데이터센터부터 서버, 실리콘까지 효율성 향상
스마트한 작업 부하 관리를 통해 하드웨어 활용 극대화
소프트웨어 회사로서의 우리의 뿌리에 충실하여 우리가 전력 효율성을 향상시키는 방법 중 하나는 다음과 같습니다. 우리의 데이터 센터 실시간으로 워크로드 스케줄링을 가능하게 하는 소프트웨어를 통해 기존 하드웨어의 활용도를 극대화하여 클라우드 서비스 수요를 충족할 수 있습니다. 예를 들어, 사람들이 전 세계 한 지역에서 근무를 시작할 때 수요가 증가하고, 다른 사람들이 저녁에 퇴근할 때 전 세계적으로 수요가 감소할 수 있습니다. 많은 경우, 기존 하드웨어를 사용하여 비수요 시간에 AI 교육 워크로드를 실행하는 등 내부 리소스 요구 사항에 맞게 가용성을 조정할 수 있습니다. 이는 또한 전력 활용도를 개선하는 데 도움이 됩니다.
우리는 데이터센터부터 서버, 실리콘에 이르기까지 인프라 스택의 모든 단계에서 소프트웨어의 힘을 활용해 에너지 효율성을 높입니다.
전통적으로 업계 전반에서 AI 및 클라우드 컴퓨팅 워크로드를 실행하려면 각 팀이나 워크로드에 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU) 및 처리 능력을 할당하여 약 50%~60%의 CPU 및 GPU 사용률을 제공해야 했습니다. 이로 인해 일부 CPU 및 GPU는 활용도가 낮은 용량이 남게 되며, 이 용량은 이상적으로는 다른 워크로드에 활용할 수 있습니다. 활용도 문제를 해결하고 워크로드 관리를 개선하기 위해 Microsoft의 AI 학습 워크로드를 Project Forge라는 머신 러닝 기술이 관리하는 단일 풀로 전환했습니다.
현재 Microsoft 서비스 전반에서 생산 중인 이 소프트웨어는 AI를 사용하여 가상으로 교육 및 추론 워크로드를 예약하고, 애플리케이션 또는 모델의 현재 상태 스냅샷을 저장하는 투명한 체크포인팅을 통해 언제든지 일시 중지 및 다시 시작할 수 있습니다. 파트너 실리콘 또는 Microsoft의 맞춤형 실리콘(예: 마이아 100Project Forge는 Azure 전반의 효율성을 지속적으로 높여 대규모 활용도를 80~90%까지 높였습니다.
데이터 센터 전체에서 사용되지 않은 전력을 안전하게 수확
전력 효율성을 개선하는 또 다른 방법은 데이터 센터에 워크로드를 지능적으로 배치하여 사용되지 않은 전력을 안전하게 수확하는 것입니다. 전력 수확은 사용 가능한 전력 사용을 극대화할 수 있는 관행을 말합니다. 예를 들어, 워크로드가 할당된 전력의 전체 양을 소비하지 않는 경우, 그 초과 전력은 다른 워크로드에서 빌리거나 다른 워크로드에 재할당할 수도 있습니다. 2020년 이후 이 작업을 통해 기존 데이터 센터에서 약 800메가와트(MW)의 전기를 회수했는데, 이는 전기 자동차로 약 280만 마일을 주행할 수 있는 전력에 해당합니다.1
작년에 고객 AI 워크로드가 증가했음에도 불구하고 전력 절감 개선 속도는 두 배로 증가했습니다. 성능이나 안정성에 영향을 미치지 않고 사용되지 않은 전력을 복구하고 재할당하기 위해 데이터 센터 플릿 전체에 이러한 모범 사례를 계속 구현하고 있습니다.
액체 냉각을 통한 IT 하드웨어 효율성 향상
워크로드의 전력 관리 외에도 칩과 이 칩을 수용하는 서버를 냉각하는 데 필요한 에너지와 물의 요구 사항을 줄이는 데 중점을 두고 있습니다. 최신 AI 워크로드의 강력한 처리로 인해 열 발생이 증가하고, 액체 냉각 서버를 사용하면 공랭 서버에 비해 열 관리에 필요한 전기가 크게 줄어듭니다. 액체 냉각으로 전환하면 칩이 최적의 온도 범위 내에서 더 효율적으로 실행되므로 실리콘에서 더 많은 성능을 얻을 수도 있습니다.
이러한 솔루션을 출시하면서 우리가 직면한 중요한 엔지니어링 과제는 최신 액체 냉각 기술을 수용하기 위해 공랭식 서버용으로 설계된 기존 데이터 센터를 개조하는 방법이었습니다. “사이드킥”과 같은 맞춤 솔루션 서버 랙 옆에 위치하여 자동차 라디에이터처럼 유체를 순환시키는 구성 요소인 액체 냉각 솔루션을 기존 데이터 센터에 도입하여 냉각에 필요한 에너지를 줄이는 동시에 랙 밀도를 높입니다. 이를 통해 데이터 센터 내 각 평방 피트에서 생성할 수 있는 컴퓨팅 전력이 증가합니다.
클라우드 및 AI 효율성을 위한 리소스에 대해 자세히 알아보고 탐색하세요.
이 주제에 대해 자세히 알아보려면 계속 지켜봐 주세요. 여기에는 유망한 효율성 연구를 실험실에서 꺼내 상업적 운영으로 옮기기 위해 노력하는 방법도 포함됩니다. 또한 Sustainable by design 블로그 시리즈를 통해 지속 가능성을 발전시키는 방법에 대해서도 자세히 읽어볼 수 있습니다. 지속 가능한 설계: AI의 지속 가능성 향상 그리고 설계에 따른 지속 가능성: 데이터 센터 물 효율성 혁신.
클라우드 및 AI 효율성에 대해 자세히 알아보고자 하는 건축가, 수석 개발자 및 IT 의사 결정권자의 경우 다음을 살펴보는 것이 좋습니다. Azure Well-Architected Framework의 지속 가능성 지침. 이 문서 세트는 다음의 디자인 원칙과 일치합니다. 그린 소프트웨어 재단 또한 고객이 IT 기능의 개발, 배포, 운영과 관련된 변화하는 지속 가능성 요구 사항과 규정을 계획하고 충족할 수 있도록 설계되었습니다.
1전기 자동차가 킬로와트시(kWh) x 1시간 x 800당 평균 3.5마일을 주행할 수 있다는 추정에 기초한 등가 가정.
게시물 설계에 의한 지속 가능성: AI의 에너지 효율성을 위한 혁신, 1부 처음 등장 Microsoft AI 블로그.