도전자들이 엔비디아의 왕관을 노리고 있습니다

matthew s. smith

1년 ago

과장하기는 어렵다 엔비디아의 AI 우세. 1993년에 설립된 엔비디아 처음에는 개인용 컴퓨터용 그래픽 처리 장치(GPU)라는 새로운 분야에서 이름을 날렸습니다. 하지만 PC 그래픽 하드웨어가 아니라 이 회사의 AI 칩 덕분에 엔비디아는 세계에서 가장 가치 있는 회사 대열에 올랐습니다. 엔비디아의 GPU는 AI에도 뛰어난 것으로 밝혀졌습니다. 그 결과, 주식은 2020년 초보다 15배 이상 가치가 올랐습니다. 매출은 2019년 회계연도의 약 120억 달러에서 2024년 600억 달러로 급증했습니다. 그리고 이 AI 강국의 최첨단 칩은 사막의 물처럼 희소하고 바람직합니다.

접근 GPU “AI 연구자들에게는 걱정거리가 너무 많아서 연구자들은 매일 이에 대해 생각합니다. 그렇지 않으면 최고의 모델이 있더라도 재미를 볼 수 없기 때문입니다.”라고 그는 말합니다. 제니퍼 프렌드키Google DeepMind의 AI 데이터 책임자. Prendki는 대부분보다 Nvidia에 덜 의존하는데, Google이 자체 홈스펀 AI 인프라. 그러나 Microsoft와 Amazon과 같은 다른 기술 거대 기업은 Nvidia의 가장 큰 고객 중 하나이며, GPU가 생산되는 즉시 계속해서 구매합니다. 미국 법무부에 따르면, 누가 GPU를 구매하고 왜 구매하는지가 반독점 조사의 주제입니다. 누르다 보고서.

머신 러닝 자체의 폭발과 마찬가지로 엔비디아의 AI 우세는 최근의 사건입니다. 그러나 그것은 그래픽 렌더링 외에도 많은 작업에 유용한 일반 컴퓨팅 하드웨어로 GPU를 확립하려는 회사의 수십 년 간의 노력에 뿌리를 두고 있습니다. 이러한 노력은 AI 워크로드를 가속화하는 데 능숙한 “텐서 코어”를 포함하도록 진화한 회사의 GPU 아키텍처뿐만 아니라 중요하게도 소프트웨어 플랫폼인 쿠다개발자가 하드웨어를 최대한 활용할 수 있도록 돕습니다.

“그들은 대학을 졸업한 모든 컴퓨터 과학 전공생이 훈련을 받고 방법을 알고 있는지 확인했습니다. 프로그램 CUDA라고 말합니다 맷 킴볼, Moor Insights & Strategy의 수석 데이터 센터 분석가. “그들은 툴링과 교육을 제공하고 연구에 많은 돈을 씁니다.”

2006년에 출시된 CUDA는 개발자가 Nvidia GPU의 여러 코어를 사용하도록 돕습니다. 이는 최신 생성 AI를 포함하여 고도로 병렬화된 컴퓨팅 작업을 가속화하는 데 필수적인 것으로 입증되었습니다. Nvidia가 CUDA 생태계를 구축하는 데 성공하면서 해당 하드웨어는 AI 개발에 가장 저항이 적은 경로가 되었습니다. Nvidia 칩은 공급이 부족할 수 있지만 AI 하드웨어보다 찾기 어려운 것은 경험이 풍부한 AI 개발자뿐이며 많은 사람이 CUDA에 익숙합니다.

그것은 Nvidia에게 사업을 방어할 수 있는 깊고 넓은 해자를 제공하지만, 그것이 성을 습격할 준비가 된 경쟁자가 없다는 것을 의미하지는 않으며, 그들의 전략은 매우 다양합니다. 수십 년 된 회사와 같은 어드밴스드 마이크로 디바이시스(AMD) 그리고 인텔 Nvidia와 경쟁하기 위해 자체 GPU를 사용하려고 하는 신생 기업들이 있습니다. 두뇌 그리고 삼바노바 생성적 AI 훈련 및 추론의 효율성을 획기적으로 개선하는 급진적인 칩 아키텍처를 개발했습니다. 이들은 Nvidia에 도전할 가능성이 가장 높은 경쟁자입니다.

AMD: 또 다른 GPU 제조업체

찬성: AMD GPU는 Nvidia 대안을 설득력 있게 만들어줍니다

범죄자: 소프트웨어 생태계, 엔비디아 CUDA에 맞설 수 없어

AMD는 거의 20년 동안 그래픽 칩 분야에서 Nvidia와 경쟁해 왔습니다. 때로는 일방적인 싸움이었습니다. 그래픽과 관련하여 AMD의 GPU는 판매 또는 마인드셰어에서 Nvidia를 거의 이긴 적이 없습니다. 그래도 AMD의 하드웨어에는 장점이 있습니다. 이 회사의 광범위한 GPU 포트폴리오는 노트북용 통합 그래픽에서 1,500억 개가 넘는 트랜지스터를 갖춘 AI 중심 데이터 센터 GPU까지 확장됩니다. 이 회사는 또한 초기 지원자이자 채택자였습니다. 고대역폭 메모리(HBM)이제 세계에서 가장 진보된 GPU에 필수적인 메모리 형태입니다.

Kimball은 Nvidia의 H100의 경쟁자인 AMD의 Instinct MI325X를 언급하며 “하드웨어를 보면… Nvidia에 유리하게 쌓입니다.”라고 말했습니다. “AMD는 그 칩을 배치하는 데 환상적인 일을 했습니다.”

올해 말 출시 예정인 MI325X는 1,500억 개가 넘는 트랜지스터와 288기가바이트의 고대역폭 메모리를 탑재하고 있지만 실제 결과는 아직 알 수 없습니다. MI325X의 이전 제품인 MI300XChatGPT 3.5 및 4 서비스를 처리하기 위해 MI300X를 포함한 AMD 하드웨어를 배포하는 Microsoft로부터 칭찬을 받았습니다. Meta와 Dell도 MI300X를 배포했으며 Meta는 최신 대규모 언어 모델 개발의 일부에서 칩을 사용했습니다. 라마 3.1.

AMD가 뛰어넘어야 할 장애물은 여전히 있습니다. 소프트웨어입니다. AMD는 오픈소스 플랫폼을 제공합니다. 로컴개발자가 GPU를 프로그래밍하는 데 도움이 되지만 CUDA보다 덜 인기가 있습니다. AMD는 이러한 약점을 알고 있으며 2024년 7월에 유럽 최대 규모의 사립 AI 연구소인 Silo AI 인수 합의ROCm 및 AMD 하드웨어를 사용하여 대규모 AI 교육을 수행한 경험이 있습니다. AMD는 ZT Systems를 인수할 계획도 가지고 있습니다.데이터 센터 인프라에 대한 전문 지식을 갖춘 회사로, 회사가 하드웨어를 대규모로 배포하려는 고객에게 서비스를 제공할 수 있도록 돕습니다. CUDA에 대한 경쟁자를 만드는 것은 쉬운 일이 아니지만 AMD는 확실히 노력하고 있습니다.

인텔: 소프트웨어 성공

찬성: 조이3 AI 가속기 강력한 성능을 보여줍니다

범죄자: 다음 대형 AI 칩은 2025년 말까지 출시되지 않습니다.

인텔의 과제는 AMD의 과제와 정반대이다.

Intel은 Nvidia의 CUDA 및 AMD의 ROCm과 정확히 일치하는 제품이 없지만 오픈 소스 통합 프로그래밍 플랫폼을 출시했습니다. 원API2018년에. CUDA 및 ROCm과 달리 OneAPI는 CPU, GPU 및 FPGA를 포함한 여러 하드웨어 범주에 걸쳐 있습니다. 따라서 개발자가 모든 Intel 하드웨어에서 AI 작업(및 기타 여러 작업)을 가속화하는 데 도움이 될 수 있습니다. Kimball은 “Intel은 매우 쉽게 켤 수 있는 엄청난 소프트웨어 생태계를 가지고 있습니다.”라고 말합니다.

반면 하드웨어는 적어도 Nvidia와 AMD와 비교했을 때 약점입니다. Intel의 Gaudi AI 가속기는 Intel의 결실입니다. 2019년 AI 하드웨어 스타트업 Habana Labs 인수진전을 이루었고, 최신, 가우디 3Nvidia의 H100과 경쟁할 수 있는 성능을 제공합니다.

그러나 인텔의 다음 하드웨어 릴리스가 정확히 어떤 모습일지는 불분명하여 일부 우려를 불러일으켰습니다. “Gaudi 3는 매우 유능합니다.”라고 말합니다. 패트릭 무어헤드Moor Insights & Strategy의 창립자. 하지만 2024년 7월 현재 “가우디 4는 없다”고 그는 말한다.

대신 Intel은 타일 기반 모듈형 아키텍처를 결합한 코드명 Falcon Shores라는 야심찬 칩으로 전환할 계획입니다. 엑스86개의 CPU 코어와 Xe GPU 코어. 후자는 인텔의 최근 그래픽 하드웨어 진출의 일부입니다. 인텔은 아직 Falcon Shores의 아키텍처와 성능에 대한 세부 정보를 공개하지 않았으며, 2025년 후반까지 출시될 예정이 없습니다.

Cerebras: 더 크면 더 좋다

찬성: 웨이퍼 스케일 칩은 칩당 강력한 성능과 메모리를 제공합니다.

범죄자: 크기와 비용으로 인해 응용 프로그램이 틈새 시장에 있습니다.

오해하지 마십시오. AMD와 Intel은 Nvidia에 대한 가장 신뢰할 수 있는 도전자입니다. 그들은 성공적인 칩을 설계하고 이를 위한 프로그래밍 플랫폼을 구축한 역사를 공유합니다. 하지만 규모가 작고 입증되지 않은 플레이어 중에서 두드러지는 것이 하나 있습니다. 두뇌.

슈퍼컴퓨터용 AI를 전문으로 하는 이 회사는 2019년에 1.2조 개의 트랜지스터가 들어 있는 거대한 웨이퍼 크기의 실리콘 조각인 Wafer Scale Engine으로 파장을 일으켰습니다. 가장 최근의 반복인 Wafer Scale Engine 3은 4조 개의 트랜지스터로 승부합니다. 비교를 위해, Nvidia의 가장 크고 새로운 GPU인 B200트랜지스터가 “단지” 2080억 개 있습니다. 이 웨이퍼 크기 괴물인 Cerebras의 CS-3를 중심으로 제작된 컴퓨터는 콘도르 갤럭시 364개의 CS-3로 구성된 8엑사플롭 AI 슈퍼컴퓨터가 될 것입니다. G42미래의 첨단 대규모 언어 모델을 훈련시키고자 하는 아부다비에 본사를 둔 대기업이 이 시스템을 소유하게 될 것입니다.

“그것은 일반적인 목적이 아니라 좀 더 틈새 시장에 가깝습니다.”라고 말합니다. 스테이시 라스곤Bernstein Research의 수석 분석가. “모든 사람이 구매하지는 않을 것입니다. [these computers]. 하지만 그들은 다음과 같은 고객을 갖고 있습니다. [United States] 국방부 및 [the Condor Galaxy 3] 슈퍼컴퓨터.”

Cerebras의 WSC-3는 대부분의 상황에서 Nvidia, AMD 또는 Intel 하드웨어에 도전하지 못할 것입니다. 너무 크고, 너무 비싸고, 너무 전문화되어 있기 때문입니다. 하지만 다른 회사가 WSE 규모의 칩을 설계하지 않기 때문에 Cerebras에게 슈퍼컴퓨터에서 독보적인 우위를 제공할 수 있습니다.

SambaNova: 트랜스포머를 위한 트랜스포머

찬성: 구성 가능한 아키텍처는 개발자가 AI 모델에서 효율성을 끌어내는 데 도움이 됩니다.

범죄자: 하드웨어는 여전히 대중시장에 적합함을 입증해야 합니다.

삼바노바2017년에 설립된 또 다른 칩 설계 회사로, 비전통적인 칩 아키텍처로 AI 훈련을 다루고 있습니다. 주력 제품인 SN40L회사에서 “재구성 가능한 데이터 흐름 아키텍처”라고 부르는, 메모리와 컴퓨팅 리소스 타일로 구성된 아키텍처가 있습니다. 이러한 타일 간의 링크는 대규모 신경망의 빠른 데이터 이동을 용이하게 하기 위해 즉시 변경될 수 있습니다.

Prendki는 이러한 사용자 정의 가능한 실리콘이 대규모 언어 모델을 훈련하는 데 유용할 수 있다고 믿습니다. AI 개발자는 다양한 모델에 맞게 하드웨어를 최적화할 수 있기 때문입니다. 다른 회사는 그런 기능을 제공하지 않는다고 그녀는 말합니다.

SambaNova도 승리를 거두고 있습니다. 삼바플로우SN40L과 함께 사용되는 소프트웨어 스택. “인프라 수준에서 SambaNova는 플랫폼에서 좋은 성과를 거두고 있습니다.” Moorhead가 말했습니다. SambaFlow는 머신 러닝 모델을 분석하고 개발자가 SN40L을 재구성하여 모델의 성능을 가속화하도록 도울 수 있습니다. SambaNova는 아직 증명해야 할 것이 많지만, 고객은 다음과 같습니다. 소프트뱅크 그리고 아날로그 디바이스.

Groq: 기능을 위한 형태

찬성: 뛰어난 AI 추론 성능

범죄자: 현재 응용 프로그램은 추론에 국한되어 있습니다.

AI 하드웨어에 대한 독특한 관점을 가진 또 다른 회사는 다음과 같습니다. 그록. Groq의 접근 방식은 대규모 언어 모델이 프롬프트에 응답할 수 있는 속도를 높이기 위해 메모리와 컴퓨팅 리소스를 긴밀하게 연결하는 데 중점을 둡니다.

“그들의 아키텍처는 메모리 기반입니다. 메모리는 프로세서와 긴밀하게 결합되어 있습니다. 노드가 더 필요하지만 토큰당 가격과 성능은 엄청납니다.” Moorhead가 말했습니다. “토큰”은 모델이 처리하는 데이터의 기본 단위입니다. LLM에서는 일반적으로 단어나 단어의 일부입니다. 그는 Groq의 성능이 훨씬 더 인상적이라고 말하는데, 그 이유는 칩이 언어 처리 장치 추론 엔진를 사용하여 만들어집니다 글로벌파운드리‘ 14나노미터 기술은 TSMC 기술보다 몇 세대 뒤처진 기술입니다. 엔비디아 H100.

7월에 Groq는 초당 1,250개 토큰을 초과할 수 있는 칩의 추론 속도 데모를 게시했습니다. 메타의 라마 3 80억 매개변수 LLM. 이는 초당 1,000개 토큰을 초과할 수 있는 SambaNova의 데모보다 뛰어납니다.

Qualcomm: 파워가 전부다

찬성: AI 기능을 갖춘 광범위한 칩

범죄자: 대형 첨단 기술이 부족합니다 AI 훈련을 위한 칩

퀄컴삼성 갤럭시 S24 울트라와 원플러스 12와 같은 인기 있는 안드로이드 폰에 탑재되는 스냅드래곤 시스템온칩으로 잘 알려진 회사는 AMD, 인텔, 엔비디아와 맞붙을 수 있는 거대 기업입니다.

하지만 동종업체와는 달리 이 회사는 특정 작업을 위한 AI 추론과 에너지 효율성에 AI 전략을 더 집중시키고 있습니다. 안톤 로크모토프AI 벤치마킹 조직 MLCommons의 창립 멤버이자 CEO 크라이AI 최적화를 전문으로 하는 회사인 퀄컴은 중요한 벤치마크 테스트에서 퀄컴 클라우드 AI 100 서버의 추론을 크게 개선했다고 말합니다. 로크모토프는 “기본적으로 동일한 서버 하드웨어”를 사용하여 이미지 분류 벤치마크인 ResNet-50에서 와트당 샘플이 180개에서 240개로 증가했다고 말합니다.

효율적인 AI 추론은 클라우드에 도달하지 않고도 로컬에서 AI 작업을 처리해야 하는 기기에도 도움이 된다고 Lokhmotov는 말합니다. 대표적인 사례: Microsoft의 Copilot Plus PC. Microsoft와 Qualcomm은 Dell, HP, Lenovo를 포함한 노트북 제조업체와 협력했으며 Qualcomm 칩이 장착된 최초의 Copilot Plus 노트북이 7월에 매장에 진열되었습니다. Qualcomm은 또한 스마트폰과 태블릿에서 강력한 입지를 확보했으며, Snapdragon 칩은 Samsung, OnePlus, Motorola 등의 기기에 전원을 공급합니다.

Qualcomm은 운전자 지원 및 자율 주행 플랫폼용 AI에서도 중요한 역할을 합니다. 2024년 초, 현대 모비우스 사업부는 스냅드래곤 라이드 플랫폼, 경쟁자 엔비디아의 드라이브 첨단 운전자 지원 시스템을 위한 플랫폼입니다.

하이퍼스케일러: 근력을 위한 맞춤형 두뇌

장점: 수직적 통합은 디자인에 초점을 맞춥니다.

단점: 하이퍼스케일러는 자체 요구 사항과 용도를 먼저 우선순위로 지정할 수 있습니다.

하이퍼스케일러(Hyperscalers)는 하드웨어를 방대한 규모로 배포하는 클라우드 컴퓨팅 거대 기업으로, Big Tech와 동의어입니다. Amazon, Apple, Google, Meta, Microsoft는 모두 자체 사용과 클라우드 컴퓨팅 고객을 위해 가능한 한 빨리 AI 하드웨어를 배포하고자 합니다. 이를 가속화하기 위해 모두 사내에서 칩을 설계하고 있습니다.

Google은 경쟁사보다 훨씬 일찍 AI 프로세서에 투자하기 시작했습니다. 2015년에 처음 발표된 검색 대기업의 Tensor Processing Units가 현재 대부분의 AI 인프라에 전력을 공급합니다. 6세대 TPU, 트릴리움5월에 발표되었으며 다음의 일부입니다. 구글의 AI 하이퍼컴퓨터AI 작업을 처리하려는 회사를 위한 클라우드 기반 서비스입니다.

Prendki는 Google의 TPU가 회사에 AI 기회를 추구하는 데 유리하다고 말합니다. 그녀는 “칩을 어디서 구하는지 너무 고민할 필요가 없어서 다행입니다.”라고 말합니다. 그러나 TPU에 대한 액세스가 공급 위기를 완전히 없애지는 못합니다. 다른 Google 부서는 여전히 리소스를 공유해야 하기 때문입니다.

그리고 Google은 더 이상 혼자가 아닙니다. Amazon에는 자체 칩이 두 개 있습니다. 트레니엄 그리고 추론각각 훈련 및 추론을 위해 사용됩니다. Microsoft는 마이아메타에는 실종자그리고 Apple은 실리콘을 개발 중이라고 합니다 클라우드 인프라에서 AI 작업을 처리합니다.

하이퍼스케일러는 고객에게 하드웨어를 판매하지 않기 때문에 이들 중 어느 것도 엔비디아와 직접 경쟁하지 않습니다. 그러나 그들은 클라우드 서비스를 통해 하드웨어에 대한 액세스를 판매합니다. 구글의 AI 하이퍼컴퓨터, 아마존의 AWS그리고 Microsoft의 Azure. 많은 경우, 하이퍼스케일러는 Nvidia, AMD, Intel의 하드웨어에서 실행되는 서비스와 함께 자체 하드웨어에서 실행되는 서비스를 옵션으로 제공합니다. Microsoft는 Nvidia의 가장 큰 고객으로 여겨집니다.

데이비드 플런커트

중국 칩: 불투명한 미래

또 다른 경쟁 유형은 기술적 필요가 아닌 지정학적 현실에서 생겨납니다. 미국, AI 하드웨어 수출 규제 강화 이는 칩 제조업체가 최신의 가장 유능한 칩을 중국 기업에 판매하는 것을 막습니다. 이에 대응하여 중국 기업은 자체 AI 칩을 설계하고 있습니다.

화웨이는 선두주자입니다. 이 회사의 Ascend 910B AI 가속기Nvidia의 H100에 대한 대안으로 설계된 이 제품은 중국 정부가 부분적으로 소유한 상하이 소재의 파운드리인 Semiconductor Manufacturing International Corp.에서 생산 중입니다. 그러나 SMIC의 수율 문제로 인해 공급이 제한되었다고 합니다. 화웨이도 ‘AI-in-a-box’ 솔루션 판매자체 AI 인프라를 회사 내부에 구축하려는 중국 기업을 대상으로 합니다.

미국 수출 통제 규칙을 우회하기 위해 중국 산업은 대체 기술로 전환할 수 있습니다. 예를 들어, 중국 연구자들은 전하 대신 빛을 사용하여 계산을 수행하는 광자 칩에서 진전을 이루었습니다. “빛의 빔의 장점은 하나를 교차할 수 있다는 것입니다. [beam with] 프렌드키는 “또 다른”이라고 말합니다. “그래서 일반적으로 실리콘 칩에서 발생하는 제약을 줄여줍니다. 즉, 경로를 교차할 수 없습니다. 회로를 더 복잡하게 만들 수 있고, 비용도 덜 듭니다.” 광자 칩은 아직 매우 초기 단계이지만, 이 분야에 대한 중국 투자가 개발을 가속화할 수 있습니다.

더 많은 공간

Nvidia가 경쟁자가 부족하지 않다는 것은 분명합니다. 또한 그 중 어느 누구도 앞으로 몇 년 동안 Nvidia에 도전하지 않을 것임은 물론이고 패배하지도 않을 것임도 분명합니다. 이 기사를 위해 인터뷰한 모든 사람은 Nvidia의 지배력이 현재로서는 타의 추종을 불허한다는 데 동의했지만, 그것이 영원히 경쟁자를 몰아낼 것이라는 의미는 아닙니다.

“들어보세요, 시장은 선택권을 원합니다.” 무어헤드가 말했다. “2026년까지 간다면 AMD가 10~20%의 시장 점유율을 갖지 못할 것이라고는 상상할 수 없습니다. 인텔도 마찬가지입니다. 일반적으로 시장은 3개를 선호하고, 거기에는 3개의 합리적인 경쟁자가 있습니다.” 킴볼은 한편, 하이퍼스케일러가 더 많은 AI 서비스를 내부 하드웨어로 전환함에 따라 엔비디아에 도전할 수 있다고 말했다.

그리고 와일드 카드가 있습니다. Cerebras, SambaNova, Groq는 Nvidia를 새로운 솔루션으로 갉아먹으려는 매우 긴 신생 기업의 선두 주자입니다. 여기에는 다음을 포함한 수십 개의 다른 기업이 합류합니다. d-매트릭스, 풀다, 텐스토런트그리고 에칭모두 생성 AI에 최적화된 새로운 칩 아키텍처에 희망을 걸고 있습니다. 이러한 신생 기업 중 다수가 실패할 가능성이 있지만, 아마도 다음 엔비디아는 생존자 중에서 나올 것입니다.

엔비디아의 무기고