AI 뉴스허브

차세대 AI에는 액체 냉각이 필요합니다

차세대 AI에는 액체 냉각이 필요합니다

차세대 AI에는 액체 냉각이 필요합니다

전형적인 데이터 센터에서 가장 먼저 눈에 띄는 것 중 하나는 소음입니다. 즉, 개별 컴퓨터 칩 옆에 있는 팬, 서버 랙 후면 패널에 있는 팬, 네트워크 스위치에 있는 팬 등 수천 개의 팬이 내는 낮고 윙윙거리는 소리입니다. 이 모든 팬은 온도에 민감한 컴퓨터 칩에서 에어컨 장치 쪽으로 뜨거운 공기를 밀어냅니다.

그러나 그 팬들은 더 이상 그것을 자르지 않습니다. 지난 10년 동안 가장 진보된 컴퓨터 칩의 전력 밀도는 폭발적으로 증가했습니다. 2017년에 Nvidia는 V100 300와트의 전력을 소비하는 GPU. 그 전력의 대부분은 열로 다시 소산됩니다. 3년 후인 2020년, 엔비디아는 A100 나왔는데, 최대 400W까지 끌어올렸습니다. 현재 인기 있는 H100 2022년에 도착했으며 최대 700W를 소비합니다. 최신 블랙웰 GPU, 노출된 2024년에는 최대 1,200W를 소비합니다.

“로드맵에서는 2,000와트 이상을 보고 있습니다. [per chip] 앞으로 1~2년 안에”라고 말했다. 드류 매터액체 냉각 회사의 사장 겸 CEO 미크로스 테크놀로지스. “사실 업계에서는 가까운 미래에 5kW 이상의 칩을 준비하고 있습니다.”

이러한 전력 폭발은 명백한 범인인 AI에 의해 주도됩니다. 그리고 고급 칩에서 추가된 모든 전력을 소비하는 모든 추가 계산으로 인해 관리할 수 없는 양의 열이 발생합니다.

“랙의 평균 전력 밀도는 약 8kW였습니다.”라고 말합니다. 조쉬 클라먼스타트업 CEO 액셀시우스. “AI의 경우 랙당 100kW로 증가하고 있습니다. 이는 엄청난 규모입니다. 데이터 센터를 냉각하는 더 나은 방법을 찾는 것이 실제로 AI 채택으로 인해 이러한 시급성이 발생하고 있습니다.”

특히, 팬에서 벗어나 일종의 액체 냉각으로 전환하는 것이 시급합니다. 예를 들어, 물의 비열은 공기의 약 4배이고 밀도는 약 800배입니다. 즉, 물은 비슷한 양의 공기보다 약 3,200배 많은 열을 흡수할 수 있습니다. 게다가 물의 열전도율은 공기의 열전도율보다 23.5배 더 높기 때문에 열이 훨씬 더 쉽게 물로 전달됩니다.

“뜨거운 오븐에 손을 넣어도 화상을 입지 않습니다. 끓는 물이 담긴 냄비에 손을 넣으면 즉시 3도 화상을 입을 수 있습니다.”라고 말합니다. 시무스 이건침수냉각 총괄책임자 모딘의 에어데일. “그 이유는 액체가 열을 훨씬, 훨씬, 훨씬 더 빨리 전달하기 때문입니다.”

데이터 센터 업계는 적어도 AI 중심 데이터 센터의 경우 액체를 이용한 칩 냉각이 미래라는 데 대체로 동의합니다. “AI가 랙의 밀도를 높이고 뜨거워짐에 따라 액체 냉각이 사실상의 솔루션이 되었습니다.” 카린 오버스트리트회장 Nortek 데이터 센터 냉각이메일을 통해 말했다.

하지만 액체 냉각을 수행하는 방법에는 간단하고 간단한 것부터 복잡하고 약간 이상한 것까지 여러 가지가 있습니다.

가장 간단한 방법은 가장 뜨거운 칩에 부착된 냉각판을 통해 냉각수가 순환하는 것입니다. 그런 다음 물이 순환하지 않고 열을 제거하기 위해 냉각판 내부에서 끓는 특수 유전체 유체가 순환합니다. 세 번째 접근 방식은 전체 서버를 시원하게 유지하는 유체에 담그는 것입니다. 그리고 마지막이자 가장 눈에 띄는 것은 서버를 끓는 액체 통에 담그는 것입니다.

미래 첨단 AI 공장의 산업 표준은 어떤 방식이 될 것인가? 이 시점에서는 누구나 추측할 수 있습니다. 네 가지 방법의 작동 방식과 가장 많이 사용되는 위치는 다음과 같습니다.

#1: 단상 직접 칩 냉각

기술적으로 가장 성숙한 접근 방식은 물을 사용하는 것입니다. 이미 많은 AI 데이터 센터에서는 가장 인기 있는 칩에 이러한 직접 칩 액체 냉각을 채택하고 있습니다.

이 방식에서는 냉각수 순환을 위한 채널이 있는 냉각판이라고 하는 금속 블록이 칩 위에 직접 배치됩니다. 냉각판은 칩 크기에 맞춰 서버 내부로 들어갑니다. 액체는 일반적으로 물이며 박테리아 성장을 방지하고 온도를 안정화하며 결빙 및 부식을 방지하고 액체의 점도를 높이기 위해 약간의 글리콜이 첨가됩니다. 글리콜-물 혼합물은 냉각판을 통과하여 소스에서 바로 열을 제거합니다.

Mikros Technologies와 같은 회사는 단상 직접 칩 액체 냉각을 추구하고 있습니다. 이 기술에서는 가장 뜨거운 칩 위에 냉각판을 놓습니다. 액체는 냉각판을 통해 순환되어 열을 제거합니다. 마벨 테크놀로지

글리콜 물은 일반적으로 폐쇄 루프에 보관되어 냉각판에서 열교환 장치로 순환하여 액체를 냉각시킨 다음 다시 냉각판으로 순환시킵니다. 열 교환기 내부에는 글리콜 워터를 냉각시키기 위해 별도의 “방수” 루프가 사용됩니다. 그런 다음 시설수는 냉각기(전동식 냉동 장치) 또는 건식 냉각기(팬을 사용하여 물이 파이프를 통해 이동할 때 물 위로 주변 공기를 불어넣는 실외 장치)에 의해 냉각됩니다. 건식 냉각기는 냉각기보다 훨씬 간단하고 에너지 효율적이지만 서늘한 기후에서만 작동하므로 물을 주변 온도 이하로 식힐 수 없습니다.

이 접근 방식의 한 가지 어려움은 서버에서 열을 생성하는 모든 단일 구성 요소에 냉각판을 배치하는 것이 불가능하다는 것입니다. 가장 에너지 밀도가 높은 구성 요소(예: GPU 및 일부 CPU)에만 냉각판을 놓고 전원 공급 장치 및 메모리 장치와 같은 작은 구성 요소는 팬을 사용하여 구식 방식으로 냉각하는 것이 합리적입니다.

Overstreet는 추세가 하이브리드 냉각 솔루션으로 이동하고 있습니다. “따라서 액체 냉각은 서버실이나 데이터 홀 냉각의 약 80%를 수행하고 약 20%는 기존 공냉식 솔루션입니다.”라고 Overstreet는 말합니다.

#2: 2단계 직접 칩 냉각

GPU 전력 밀도가 평준화될 조짐을 보이지 않으면서 칩에 직접 수냉하는 것이 한계에 도달했습니다. 물론 물의 흐름을 늘릴 수는 있지만 그렇게 하면 더 많은 에너지가 사용됩니다. 또는 칩을 더 높은 온도에서 작동할 수 있습니다. 그러면 성능이 저하되고 장기적으로 칩 성능이 저하됩니다. 다행히도 세 번째 옵션이 있습니다. 열 교환의 물리학을 좀 더 활용하는 것입니다.

물리학이 제공하는 추가 냉각 능력은 잠열, 즉 액체에서 기체로 상을 변경하는 데 필요한 에너지에서 비롯됩니다. 액체가 GPU에서 끓어오르면 온도가 상승하지 않고 가스로 변하면서 여분의 잠열을 흡수합니다.

Accelsius와 같은 회사는 2단계 직접 칩 액체 냉각을 제안하고 있습니다. 여기서도 가장 뜨거운 칩 위에 냉각판을 놓고 냉각판을 순환하는 액체가 칩 바로 위에서 끓습니다. 빅 아이디어 프로덕션

이것이 기본적으로 2단계 칩 직접 냉각이 작동하는 방식입니다. 이 방식에서는 특별히 제조된 유전체 액체가 고에너지 칩 위에 있는 냉각판을 통해 순환하고 증기로 끓습니다. 그런 다음 증기는 열교환기로 다시 공급되고, 여기서 시설용수를 사용하여 유체를 냉각시킵니다.

“정말 끓어오르는 것 같아요.”라고 말합니다. 내 트롱스타트업의 최고기술책임자(CTO) 주타코어이는 2단계 직접 칩 냉각 시스템을 만듭니다.

물은 100°C(대기압 기준)에서 끓습니다. 이는 칩이 제대로 작동하기에는 너무 높은 온도입니다. 따라서 끓는점이 더 낮은 특수하게 제조된 유체가 필요합니다. ZutaCore의 수석 전도사, 샤하르 벨킨그들이 사용하는 유체는 Honeywell 및 Chemours와 같은 화학 공급업체에서 공급되며 최저 18°C의 온도에서 끓으며 루프의 압력을 조정하여 위아래로 조정할 수 있다고 설명합니다. 또한 유체는 유전체이므로 외부 전기장에 의해 분극되지 않는 한 전기적으로 충전되지 않습니다. 따라서 물과 달리 유체 중 일부가 전자 장치에 쏟아져도 값비싼 장비가 손상되지 않습니다.

물이 뜨거운 칩 위로 흐르면서 온도가 급격하게 증가합니다. 이는 유입되는 물을 차갑게 유지해야 하므로 대부분의 기후에서 시설 용수를 냉각기로 냉각해야 함을 의미합니다.

그러나 끓는 유전체 유체의 경우 유체는 거의 동일한 온도를 유지하고 단순히 위상을 증기로 변경합니다. 이는 액체와 시설 용수 모두 더 높은 온도로 유지될 수 있어 상당한 에너지 절감 효과를 얻을 수 있음을 의미합니다.

뜨거운 칩 위에서 액체가 끓으면 칩은 더 차가운 액체와의 접촉뿐만 아니라 상 변화를 유도하는 데 필요한 잠열을 통해 냉각됩니다. 액셀시우스

“냉각판에서 발생하는 매우 효율적인 비등 과정 덕분에 우리는 냉각판보다 6~8도 더 따뜻한 시설물을 받아들일 수 있습니다. [with] 단상”이라고 말합니다. 루카스 베란제품 마케팅 이사 액셀시우스2단계 직접 칩 액체 냉각을 연구하는 또 다른 스타트업입니다.

또한 2단계 설정은 기존의 단상 물 접근 방식보다 낮은 액체 유량을 필요로 하므로 에너지를 덜 사용하고 장비 손상 위험도 적습니다. 2단계 냉각의 유량은 단상 냉각의 5분의 1 정도라고 Belkin은 말합니다.

그는 단상 수냉식을 사용하면 2,000W에서 작동하는 최첨단 칩의 경우 “냉각판에 분당 1갤런을 흘러야 합니다”라고 말합니다. “이는 매우 높은 압력과 매우 높은 흐름을 의미합니다. 이는 펌핑 비용이 많이 들고, [the cooling system] 높은 유량으로 인해 실제로 해를 입을 것입니다.”

#3: 단상 침수 냉각

칩에 직접 액체 냉각은 단지 공기를 불어넣는 것보다 훨씬 더 많은 냉각 용량을 제공하지만 여전히 냉각을 수행하기 위한 매개체로 냉각판을 사용합니다.

냉각판을 완전히 우회하여 컴퓨터 서버 전체를 냉각수에 담글 수 있다면 어떨까요? 일부 회사에서는 그렇게 하고 있습니다.

이 접근 방식에서 데이터 센터는 랙이 아닌 침수 탱크 주위에 배열되며, 각 탱크는 대략 냉장고 크기입니다. 침지 탱크는 유전성 유체(일반적으로 오일)로 채워져 있으며 이는 비전도성이고 강한 열 전달 특성을 가져야 합니다. 레이첼 비엘스타인침수 냉각 부문 글로벌 영업 관리자 볼티모어 에어코일 주식회사 또한 이 유체는 장기적인 안정성과 낮은 환경 및 화재 위험을 요구합니다.

Sustainable Metal Cloud는 전체 서버를 액체 통에 담가 냉각을 유지하는 단상 침수 냉각을 옹호합니다.확고한 기술

침수 냉각을 사용하면 모든 것이 동일한 유체로 냉각됩니다. 오일이 열을 제거한 후 침지 유체를 냉각시키는 다양한 접근 방식이 있습니다. 예를 들어 Baltimore Aircoil은 탱크 내부의 코일과 플레이트를 통해 시설 용수를 순환시키는 열 교환기를 설계했다고 Bielstein은 설명합니다. “가열된 물은 외부 냉각기로 펌핑되어 열을 공기 중으로 방출하고 물을 냉각시킨 후 다시 열교환기로 보내어 탱크에서 더 많은 열을 흡수합니다. 이 공정은 기존 설계에 비해 에너지를 최대 51% 적게 사용합니다.”

싱가포르에 본사를 둔 팀 지속 가능한 메탈 클라우드 데이터 센터용 침수 냉각 시스템을 구축하는 (SMC)는 서버가 이 냉각 방법과 호환되도록 하기 위해 서버에 수정해야 할 사항을 알아냈습니다. 내장된 팬을 제거하는 것 외에도 회사는 칩을 방열판에 연결하는 열 인터페이스 재료 중 일부가 오일로 분해됨에 따라 교체합니다. SMC와 자매회사인 Firmus의 공동 CEO인 Oliver Curtis는 다음과 같이 말했습니다. IEEE 스펙트럼 수정 사항은 작지만 SMC 설정 기능에 중요합니다.

Curtis는 “우리는 컴퓨터를 위한 완벽한 운영 환경을 만들었습니다.”라고 말합니다. “팬이 없기 때문에 먼지도 없고 움직임도 없고 진동도 없습니다. 그리고 완벽한 작동 온도입니다.”

거기에 e 느리게 움직이는 오일에 의해 완전히 냉각되기에는 전력 밀도가 여전히 너무 높은 일부 칩. 이러한 경우 냉각판을 추가하여 냉각판 위로 오일 흐름을 늘리는 것이 필요합니다. Modine의 Airedale의 Egan은 이러한 첨단 칩 냉각에 대해 “단상 침적은 이미 한계에 도달했습니다”라고 말합니다. 침수 냉각에 냉각판을 추가하면 “분명히 고급 칩 아키텍처에 대한 지원을 제공하고 단상 유전체 유체의 열 부하를 줄일 것입니다. 새로운 과제는 이제 두 개의 별도 냉각 루프 시스템이 필요하다는 것입니다.”라고 그는 말합니다.

#4: 2단계 침수 냉각

어떤 냉각 방법만으로는 충분하지 않다면 모든 냉각 방법을 함께 사용하여 데이터 센터를 끓는 기름 통에 담그는 것은 어떻습니까?

일부 회사는 이미 그렇습니다.

Accelsius의 Beran은 “2단계 침수는 아마도 데이터 센터 액체 냉각에 있어서 가장 획기적인 기술일 것입니다.”라고 말합니다.

하지만 브랜든 마샬데이터 센터 액체 냉각 부문 글로벌 마케팅 관리자 화학요법이것이 업계가 향하는 방향이라고 말합니다. “우리는 연구 결과에 따르면 2단계 몰입이 상당히 합리적인 방식으로 이루어질 것이라고 믿습니다.”

델라웨어주 뉴어크에 있는 연구실에서 Chemours 팀은 2단계 침지 냉각을 위해 특별히 제조된 액체를 개발하고 있습니다. 이 접근 방식에서는 서버를 액체 통에 담그고 액체가 뜨거운 구성 요소 위에서 끓어오르면서 시스템을 냉각시킵니다. 화학요법

Marshall은 끓는점이라고도 알려진 2상 액체는 잠열로 인해 단상 액체보다 냉각 용량이 10~100배 더 크다고 주장합니다. 그리고 2단계 칩 직접 냉각이 오늘날의 칩에 적합할 수 있지만 메모리 모듈 및 전원 공급 장치와 같은 많은 구성 요소는 여전히 공기 냉각됩니다. CPU와 GPU가 더욱 강력해짐에 따라 이러한 메모리 모듈과 전원 공급 장치에도 액체 냉각이 필요합니다.

Marshall은 “그 문제 목록은 아무데도 가지 않을 것입니다.”라고 말합니다. “우리가 앞으로 나아갈수록 침지 냉각 부분에 대한 관심이 계속 커질 것이라고 생각합니다. 사람들은 예전처럼 랙 내부에 2상 유체를 두는 것에 더 익숙해질 것입니다. [with] 단상 다이렉트 투 칩(Single Phase Direct-to-Chip) 기술을 통해 랙에 물을 넣는 것입니다.”

델라웨어주 뉴어크에 있는 연구실에서 Chemours 팀은 독점적이고 특별히 제조된 유체로 채워진 탱크에 여러 대의 고출력 서버를 배치했습니다. 유체는 단락을 일으키지 않도록 유전체이며 부식성이 없으며 칩이 유지되는 정확한 온도에서 끓도록 설계되었습니다. 액체는 뜨거운 칩 위에서 직접 끓습니다. 그런 다음 증기는 탱크의 상단이나 후면 패널의 냉각된 표면에 응축됩니다.

Chemours 팀은 델라웨어주 뉴어크에 있는 연구실에서 2단계 침수 냉각액을 테스트하고 있습니다. 이 접근 방식에서는 전체 서버가 유전체 액체가 담긴 탱크에 담겨 있습니다. 서버의 열로 인해 액체가 끓어 냉각됩니다. 화학요법

그 콘덴서는 순환하는 방열수로 냉각됩니다. “우리에게 필요한 것은 끓는점보다 약 6도 낮은 물, 즉 약 43°C인 물을 탱크로 직접 보내는 것뿐입니다.”라고 Marshall은 말합니다. “액체가 응축됩니다. [back to a liquid] 바로 탱크 ​​내부. 유체를 응축하는 데 필요한 온도 덕분에 대부분의 경우 냉각기 및 기타 복잡한 기계 인프라가 필요하지 않습니다.”

최근에 따르면 사례 연구 Chemours 연구진에 따르면 대부분의 기후에서 2단계 침지 냉각이 단상 침지 또는 단상 칩 직접 냉각보다 비용 효율적입니다. 예를 들어, 버지니아 주 애쉬번(Ashburn)에서 10년 총 소유 비용은 단상 직접 칩 설정의 경우 미화 4억 3,600만 달러, 단상 침수형 설정의 경우 4억 9,100만 달러, 2상 침수 냉각 설정의 경우 4억 3,300만 달러로 추산되었는데, 이는 대부분 낮은 전력 요구 사항과 단순화된 기계 시스템 때문이었습니다.

비평가들은 특히 오일이 너무 전문적이고 비싸며 증발하기 쉽기 때문에 2단계 침수로 인해 장비를 유지 관리하기가 어렵다고 주장합니다. “침수 탱크에 있을 때 달러 기호가 증발하면 서비스하기가 다소 어려울 수 있습니다.”라고 Beran은 말합니다.

그러나 Modine의 Airedale의 Egan은 그의 회사가 가장자리 적용을 위한 침수 탱크를 사용하여 이 문제를 대부분 피할 수 있는 방법을 개발했다고 말했습니다. “우리의 EdgeBox는 그 위에 공기층이 있고 탱크 뚜껑에 더 가깝게 증기층을 탱크의 아래쪽 아래로 유지하도록 특별히 설계되었습니다. 탱크가 열리면(짧은 유지 관리 기간 동안) 증기층이 탱크 밖으로 ‘흐르지’ 않습니다.”라고 Egan은 이메일을 통해 썼습니다. “증기는 공기보다 훨씬 무거우므로 탱크 내에서 더 낮게 유지됩니다. 최소한의 증기 손실은 시스템 내 유체 완충 탱크에 의해 상쇄됩니다.”

가까운 미래에 업계 사람들은 AI의 전력 수요가 계속 증가할 것이며 이에 따라 냉각에 대한 필요성도 높아질 것이라는 점에 동의합니다.

Marshall은 “AI가 무너지고 모든 사람이 이러한 AI 클러스터 구축을 중단하고 대규모 언어 모델에 대한 교육을 수행하기 위한 하드웨어 구축을 중단하지 않는 한 계속해서 냉각 기능을 발전시켜야 하며 열 문제를 해결해야 합니다.”라고 Marshall은 말합니다.

다가오는 AI 공장에서는 어떤 냉각 기술이 지배하게 될까요? 말하기에는 너무 이르다. 그러나 데이터 센터의 급변하는 특성으로 인해 이 분야에서는 많은 창의성과 혁신이 가능해졌습니다.

Mikros Technologies의 Drew Matter는 “액체 냉각 시장이 거대할 뿐만 아니라 재미있는 엔지니어링 문제이기도 합니다”라고 말합니다.

Exit mobile version