대망의 신흥 컴퓨터 네트워크 구성 요소가 마침내 그 순간을 가질 수 있습니다. ~에 NVIDIA의 GTC 지난 주 산호세에서 이벤트는 AI 데이터 센터의 전력 소비를 크게 줄이기 위해 설계된 광 네트워크 스위치를 생산할 것이라고 발표했습니다. 시스템-공동 포장 된 광학 또는 CPO, 스위치를 제공했습니다.한 랙의 컴퓨터에서 다른 랙의 컴퓨터로 수십 개의 테라 비트를 배선 할 수 있습니다.. 동시에 시작 네트워크 운모그것은 Broadcom의 기술.
오늘날 데이터 센터에서 컴퓨터 랙의 네트워크 스위치는 시스템에 연결되는 광학 트랜시버에 전기적으로 연결된 특수 칩으로 구성됩니다. (랙 내의 연결은 전기적이지만 여러 스타트 업 이것을 바꾸기를 바랍니다.) 플러그 가능한 트랜시버는 레이저, 광학 회로, 디지털 신호 프로세서 및 기타 전자 제품을 결합합니다. 그들은 스위치에 전기 링크를 만들고 스위치 쪽의 전자 비트와 광학 섬유를 따라 데이터 센터를 통과하는 광자 사이의 데이터를 변환합니다.
공동 포장 된 광학은 광학/전기 데이터 변환을 가능한 한 스위치 칩에 가깝게 이동시켜 대역폭을 높이고 전력 소비를 줄이기위한 노력입니다. 이것은 필요한 별도의 구성 요소의 수를 줄이고 전자 신호가 이동 해야하는 거리를 줄임으로써 설정을 단순화하고 전원을 절약합니다. 고급 포장 기술을 사용하면 칩 제조업체가 네트워크 칩을 여러 실리콘 광학 트랜시버 칩 칩으로 둘러싸고 있습니다. 광 섬유는 패키지에 직접 부착됩니다. 따라서 모든 구성 요소는 레이저를 제외한 단일 패키지로 통합되며, 비 실리콘 재료 및 기술을 사용하여 제작되기 때문에 외부에 남아 있습니다. (CPO는 NVIDIA 하드웨어의 8 개의 데이터 링크마다 하나의 레이저 만 필요합니다.)
“400,000 GPU가있는 AI 슈퍼 컴퓨터는 실제로 24 메가 와트 레이저입니다.” – 벅, nvidia
기술에 매력적인 것처럼, 경제학은 배치를 막았습니다. “우리는 CPO를 영원히 기다리고 있습니다 클린트 슈프캘리포니아 대학교 산타 바바라 (University of California Santa Barbara)의 공동 포장 된 광학 전문가이자 IEEE 동료 20 년 동안 기술 연구. Nvidia의 기술 보증에 대해 말하면, 그는 회사가“시간이 여기에 없으면 그렇게하지 않을 것입니다. [GPU-heavy data centers] 권력을 쓸 여유가 없습니다.” 관련된 엔지니어링은 너무 복잡합니다. Schow는“오래된 방식이 깨지지 않는 한”만해서 가치가 있다고 생각하지 않습니다.
실제로 NVIDIA는 다가오는 AI 데이터 센터에서 동기 부여로 전력 소비를 지적했습니다. 플러그 가능한 광학은 AI 데이터 센터에서“총 GPU 컴퓨팅 전력의 10 %”를 소비한다고 말합니다. 이안 벅Nvidia의 Hyperscale 및 고성능 컴퓨팅 부사장. 40 메가 와트로 번역되는 400,000-GPU 공장에서, 그 중 절반 이상이 플러그 가능한 광학 트랜시버에 레이저를 전원하는 데 간다. “40 만 GPU가있는 AI 슈퍼 컴퓨터는 실제로 24 메가 와트 레이저입니다.”라고 그는 말합니다.
광학 변조기
Broadcom의 체계와 Nvidia ‘s의 근본적인 차이점 중 하나는 전자 비트를 빛의 빔에 인코딩하는 광학 조절기 기술입니다. 실리콘 광자에는 두 가지 주요 유형의 변조기가 있습니다.기계공Broadcom은 플러그 가능한 광학의 기초와 Nvidia가 선택한 마이크로 러링 공진기의 기초입니다. 전자에서 도파관을 통해 이동하는 빛은 두 개의 평행 암으로 나뉩니다. 그런 다음 각 암은 적용된 전기장에 의해 변조 될 수 있으며, 이는 통과하는 빛의 위상을 변화시킵니다. 그런 다음 무기는 단일 도파관을 형성하기 위해 다시 합류했습니다. 두 신호가 현재 위상 이하인지 또는 위상을 벗어난 지 여부에 따라 서로를 취소하거나 결합합니다. 따라서 전자 비트는 빛에 인코딩 될 수 있습니다.
마이크로 링 변조기는 훨씬 더 작습니다. 두 개의 평행 경로를 따라 빛을 쪼개지 않고, 고리 모양의 도파관은 빛의 주요 경로의 측면에 매달려 있습니다. 빛이 링에서 정재파를 형성 할 수있는 파장이라면, 주도권에서 파장을 필터링하여 필터링됩니다. 정확히 어떤 파장이 고리와 공명하는지 구조의 굴절률에 따라 달라집니다. 이는 전자적으로 조작 할 수 있습니다.
그러나 마이크로 러링의 소형은 비용과 함께 제공됩니다. 마이크로 링 변조기는 온도에 민감하므로 각각 내장 난방 회로가 필요하므로 신중하게 제어하고 전력을 소비해야합니다. 반면에, 마하 젠더 장치는 상당히 크기 때문에 빛을 잃고 일부 디자인 문제가 발생한다고 Schow는 말합니다.
NVIDIA는 마이크로 링 기반 실리콘 광자 공학 엔진을 상용화 할 수있었습니다.“놀라운 엔지니어링 업적”이라고 Schow는 말합니다.
NVIDIA CPO 스위치
NVIDIA에 따르면 새로운 AI 데이터 센터에 CPO 스위치를 채택하면 레이저 수의 4 분의 1, 3.5 배의 트래 피킹 파워 효율을 높이고, 신호의 신뢰성을 높이고, 한 컴퓨터에서 다른 컴퓨터에서 63- 타임으로 제 시간에 한 컴퓨터에서 다른 컴퓨터로 만드는 신호의 신뢰성을 향상시키고, 네트워크를 10 배보다 더 강력한 단호한 Hardware를 배치 할 수있게 해줍니다.
Nvidia CEO Jensen Huang은“실리콘 광자를 스위치에 직접 통합함으로써 Nvidia는 초 저격 및 엔터프라이즈 네트워크의 오래된 한계를 산산조각 내고 백만 GPU AI 공장으로 문을 열고 있습니다.
– YouTubeYoutu.be
이 회사는 Spectrum-X와 Quantum-X의 두 가지 클래스의 스위치를 계획합니다. 회사가 올해 말에 제공 될 것이라고 말한 Quantum-X는 다음을 기반으로합니다. 인피니본 네트워크 기술, 네트워크 체계는 고성능 컴퓨팅을 지향합니다. 144 개의 포트 각각에서 800GB/s를 제공하며, 2 개의 CPO 칩은 새로운 AI 데이터 센터의 증가하는 것과 마찬가지로 에어 냉각 대신 액체 냉각됩니다. 네트워크 ASIC에는 NVIDIA가 포함됩니다 날카로운 FP8 CPU 및 GPU가 특정 작업을 네트워크 칩에 오프로드 할 수있는 기술.
Spectrum-X는 512 또는 2048 포트에서 총 128 또는 512 포트에서 초당 약 100 개의 테라 비트의 총 대역폭을 제공 할 수있는 이더넷 기반 스위치입니다. 하드웨어 제조업체는 2026 년에 스펙트럼 -X 스위치를 준비 할 것으로 예상됩니다.
Nvidia는 수년간 기본 광자 기술을 연구 해 왔습니다. 그러나 11 명의 파트너와의 협력이 필요했습니다 TSMC,,, 코닝그리고 폭스콘– 전환을 상업 상태로 가져 오기 위해.
NVIDIA의 광학적 상호 연결 제품 담당 이사 인 Ashkan Seyedi는 파트너의 기존 기술로부터 단순히 조립 된 대신 AI 데이터 센터 요구를 충족시키기 위해이 파트너가 테이블에 가져온 기술이 협력하여 협력 된 것이 얼마나 중요한지 강조했습니다.
Seyedi는“CPO가 가능하게하는 혁신과 전력 절약은 포장 체계, 포장 파트너, 포장 흐름과 밀접한 관련이 있습니다. “참신은 광학 구성 요소에 직접적으로있을뿐만 아니라 고급 비용으로 관리 할 수있는 고수익, 테스트 가능한 방식으로 포장되는 방식에 있습니다.”
시스템은 너무 비싼 구성 요소의 통합이기 때문에 테스트는 특히 중요합니다. 예를 들어, Quantum-X 시스템의 2 개의 CPO 각각에 18 개의 실리콘 광자 칩 칩이 있습니다. 그리고 그 각각은 2 개의 레이저와 16 개의 광학 섬유에 연결해야합니다. Seyedi는이 팀이 올바르게 얻기 위해 몇 가지 새로운 테스트 절차를 개발해야했고 오류가 발생하는 곳을 추적해야한다고 말했습니다.
Micas 네트워크 스위치
Micas Networks는 이미 Broadcom의 CPO 기술을 기반으로 한 스위치로 생산 중입니다.네트워크 운모
Broadcom은 더 확립 된 마하 젠더 변조기를 선택했습니다 Bailly CPO 스위치부분적으로는보다 표준화 된 기술이기 때문에 기존 플러그 가능한 트랜시버 인프라와 더 쉽게 통합 할 수 있도록 잠재적으로 로버트 한나Broadcom의 광학 시스템 부서의 제품 마케팅 수석 관리자.
마이카스 시스템 Broadcom으로 구성된 단일 CPO 구성 요소를 사용합니다. 토마 호크 5 8 개의 6.4 TB/S 실리콘 광주 공학 광학 엔진으로 둘러싸인 이더넷 스위치 칩. 공랭식 하드웨어는 현재 전체 생산 중이며 NVIDIA의 CPO 스위치보다 앞서 있습니다.
Hannah는 Nvidia의 참여를 Micas ‘의 승인과 Broadcom의 타이밍이라고 부릅니다. “몇 년 전, 우리는 퍽이 어디에있을 곳으로 스케이트를 타기로 결정했습니다.” 미치 갈 브라이Micas의 최고 운영 책임자. 데이터 센터 운영자가 인프라에 힘을 발휘하기 위해 스크램블링하면서 CPO의 시간은오고있는 것으로 보인다.
이 새로운 스위치는 표준 플러그 가능한 트랜시버로 채워진 40 %의 전력 절약과 시스템을 약속합니다. 하지만, 찰리 후CPO의 높은 신뢰성은 Micas의 기업 전략 부사장이 마찬가지로 중요하다고 말합니다. “링크 플랩,”플러그 가능한 광학 링크의 일시적 실패에 대한 용어는 이미 긴 AI 훈련 실행을 지속하는 원인 중 하나입니다. CPO는 신호 경로에 구성 요소가 적기 때문에 링크 플랩이 적을 것으로 예상됩니다.
미래의 CPO
Schow는 CPO에서 얻을 수있는 큰 전력 절약 데이터 센터는 대부분 일회성 이점이라고 Schow는 제안합니다. 그 후, “나는 그것이 새로운 정상이 될 것이라고 생각합니다.” 그러나 Electronics의 다른 기능을 개선하면 CPO 제조업체가 적어도 한동안 대역폭을 계속 높일 수 있습니다.
Schow는 Nvidia의 Photonic 엔진에서 200GB/s로 실행되는 개별 실리콘 변조기가 400GB/s 이상을 지나갈 수있을 것입니다. 그러나 리튬 니오 베이트 및 인듐 인산과 같은 다른 물질이이를 초과 할 수 있어야합니다. 트릭은 산타 바바라에 기반을 둔 실리콘 구성 요소와 저렴하게 통합하는 것입니다. 오픈 라이트 그 중 작업 중입니다 다른 그룹.
그 동안, 플러그 가능한 광학은 여전히 서 있지 않습니다. 이번 주 Broadcom은 새로운 디지털 신호 프로세서를 발표하여 1.6TB/S 트랜시버에 대해 20 % 이상의 전력 감소를 초래할 수 있으며 부분적으로보다 진보 된 실리콘 프로세스로 인해 전력 감소를 초래할 수 있습니다.
그리고 다음과 같은 스타트 업 Avicena,,, 실험실 설정그리고 Lightmatter 광학 상호 연결을 GPU 자체로 완전히 연결하기 위해 노력하고 있습니다. 전 두 사람은 GPU 또는 다른 프로세서와 같은 패키지 안으로 들어가는 칩 렛을 개발했습니다. Lightmatter는 한 걸음 더 나아가서 실리콘 광자 공학 엔진에 미래의 칩이 3D 스택 된 포장 기판으로 만듭니다.