최신 Google 및 Nvidia 칩으로 AI 교육 속도 향상

Date:

Nvidia, Oracle, Google, Dell 및 기타 13개 회사는 현재 사용 중인 주요 신경망을 컴퓨터에서 훈련시키는 데 얼마나 오랜 시간이 걸리는지 보고했습니다. 그 결과 중에서 처음으로 엿볼 수 있었던 것은 엔비디아의 차세대 GPU, B200그리고 Google의 곧 출시될 가속기인 트릴리움. B200은 오늘날의 주력 제품인 Nvidia 칩에 비해 일부 테스트에서 두 배의 성능을 기록했습니다. H100. 그리고 Trillium은 Google이 2023년에 테스트한 칩보다 거의 4배 향상된 성능을 제공했습니다.

MLPerf v4.1이라고 불리는 벤치마크 테스트는 권장사항, 사전 교육, 대규모 언어 모델 (LLM) GPT-3 및 BERT-large, 미세 조정 라마 2 70B 대형 언어 모델, 객체 감지, 그래프 노드 분류 및 이미지 생성.

훈련 GPT-3 벤치마크를 제공하기 위해 모든 작업을 수행하는 것은 비실용적일 정도로 엄청난 작업입니다. 대신, 테스트는 전문가가 계속 진행하면 목표에 도달할 가능성이 있다고 판단하는 지점까지 훈련시키는 것입니다. Llama 2 70B의 목표는 LLM을 처음부터 훈련하는 것이 아니라 이미 훈련된 모델을 가져와서 특정 전문 분야에 특화되도록 미세 조정하는 것입니다. 이 경우에는 정부 문서. 그래프 노드 분류는 사기 탐지 및 약물 발견에 사용되는 기계 학습 유형입니다.

AI에서 중요한 것이 진화함에 따라 주로 사용하는 방향으로 발전했습니다. 생성 AI테스트 세트가 변경되었습니다. 이 최신 버전의 MLPerf는 벤치마크 노력이 시작된 이후 테스트 대상이 완전히 바뀌었습니다. “이 시점에서 원래 벤치마크는 모두 단계적으로 폐지되었습니다.”라고 말합니다. 데이비드 캔터누가 이끄는가 MLCommons의 벤치마크 노력. 이전 라운드에서는 일부 벤치마크를 수행하는 데 몇 초밖에 걸리지 않았습니다.

파란색 대각선 하나와 해당 선에서 솟아오르는 여러 색상의 점선 가지가 있는 선 그래프입니다.다양한 벤치마크에서 최고의 기계 학습 시스템의 성능은 무어의 법칙에서만 얻을 수 있는 이득인 경우 예상되는 것보다 뛰어났습니다. [blue line]. 실선은 현재 벤치마크를 나타냅니다. 점선은 더 이상 산업적으로 관련이 없기 때문에 이제 폐기된 벤치마크를 나타냅니다.MLCommons

MLPerf의 계산에 따르면 새로운 벤치마크 제품군에 대한 AI 교육은 예상보다 약 2배 빠른 속도로 개선되고 있습니다. 무어의 법칙. 시간이 지남에 따라 결과는 MLPerf의 통치가 시작될 때보다 더 빠르게 정체되었습니다. Kanter는 이를 주로 기업이 대규모 시스템에서 벤치마크 테스트를 수행하는 방법을 알아냈다는 사실에 기인한다고 생각합니다. 시간이 지남에 따라, 엔비디아, Google그리고 다른 사람들은 선형에 가까운 확장을 허용하는 소프트웨어 및 네트워크 기술을 개발했습니다. 즉, 프로세서를 두 배로 늘리면 훈련 시간이 대략 절반으로 단축됩니다.

첫 번째 Nvidia Blackwell 교육 결과

이번 라운드는 Blackwell이라고 불리는 Nvidia의 차세대 GPU 아키텍처에 대한 첫 번째 교육 테스트였습니다. GPT-3 훈련 및 LLM 미세 조정의 경우 Blackwell(B200)은 GPU당 기준으로 H100의 성능을 대략 두 배로 늘렸습니다. 이득은 약간 덜 강력했지만 추천 시스템과 이미지 생성에서는 각각 64%와 62%로 여전히 상당했습니다.

그만큼 블랙웰 아키텍처Nvidia B200 GPU에 구현된 는 AI 속도를 높이기 위해 점점 더 덜 정확한 숫자를 사용하는 지속적인 추세를 이어가고 있습니다. ChatGPT, Llama2 및 같은 변환기 신경망의 특정 부분에 대해 안정적인 확산엔비디아 H100 및 H200은 8비트 부동 소수점 숫자를 사용합니다.. B200은 이를 단 4비트로 줄였습니다.

구글, 6세대 하드웨어 출시

Google은 6에 대한 첫 번째 결과를 보여주었습니다. 지난 달에 공개된 Trillium이라는 TPU 세대와 5에 대한 두 번째 결과 세대 변형인 Cloud TPU v5p. 2023년판에서는 검색 거인이 5의 다른 변형을 입력했습니다. 차세대 TPU, v5e는 성능보다 효율성에 더 중점을 두고 설계되었습니다. 후자에 비해 Trillium은 GPT-3 훈련 작업에서 최대 3.8배의 성능 향상을 제공합니다.

그러나 모든 사람의 최대 라이벌인 Nvidia에 비해 상황은 그다지 장밋빛이 아니었습니다. 6,144개의 TPU v5ps로 구성된 시스템은 11.77분 만에 GPT-3 트레이닝 체크포인트에 도달하여 약 3.44분 만에 작업을 완료한 11,616-Nvidia H100 시스템에 한참 뒤처졌습니다. 그 최고 TPU 시스템은 크기가 절반인 H100 컴퓨터보다 약 25초 더 빨랐습니다.

Dell Technologies 컴퓨터는 약 75센트 상당의 전기를 사용하여 Llama 2 70B 대형 언어 모델을 미세 조정했습니다.

v5p와 Trillium을 가장 근접하게 비교한 결과, 각 시스템은 2048개의 TPU로 구성되어 있으며 곧 출시될 Trillium은 GPT-3 교육 시간을 2분 단축해 v5p의 29.6분에 비해 거의 8% 향상되었습니다. Trillium과 v5p 항목의 또 다른 차이점은 Trillium이 v5p의 Intel Xeon 대신 AMD Epyc CPU와 쌍을 이룬다는 것입니다.

Google은 또한 Cloud TPU v5p를 사용하여 이미지 생성기인 Stable Diffusion을 학습시켰습니다. 26억 개의 매개변수가 있는 Stable Diffusion은 MLPerf 참가자가 GPT-3처럼 체크포인트가 아닌 수렴까지 훈련하도록 요청받을 만큼 충분히 가벼운 리프트입니다. 1024 TPU 시스템은 2분 26초 만에 작업을 완료하여 2위에 올랐으며, 이는 Nvidia H100으로 구성된 동일한 크기의 시스템보다 약 1분 뒤쳐졌습니다.

훈련력은 아직 불투명

신경망 훈련에 드는 엄청난 에너지 비용은 오랫동안 우려의 대상이었습니다. MLPerf는 이를 측정하기 시작했습니다. Dell Technologies는 64개의 Nvidia H100 GPU와 16개의 Intel Xeon Platinum CPU를 포함하는 8개의 서버 시스템을 갖춘 에너지 부문의 유일한 진입자입니다. 유일한 측정은 LLM 미세 조정 작업(Llama2 70B)이었습니다. 시스템은 5분 동안 실행되는 동안 16.4메가줄을 소비했으며 평균 전력은 5.4킬로와트였습니다. 이는 미국 평균 비용으로 약 75센트의 전기 요금을 의미합니다.

그 자체로는 많은 것을 말해주지는 않지만 결과는 잠재적으로 유사한 시스템의 전력 소비에 대한 야구장을 제공합니다. 예를 들어 Oracle은 동일한 수와 유형의 CPU 및 GPU를 사용하여 4분 45초에 가까운 성능 결과를 보고했습니다.

Share post:

Subscribe

Popular

More like this
Related

Invio Automation, 자동화 평가 서비스 출시

Invio Automation은 위의 포장 절차에 사용된 것과 같은 맞춤형...

궤도 백업 인터넷을 위한 NATO의 비상 계획

2024년 2월 18일, 예멘 후티 반군의 미사일 공격으로 화물선이...

2024년 상위 10가지 에너지 스토리

IEEE 스펙트럼'2024년 가장 많이 읽힌 에너지 스토리는 더 많은...

IEEE, 엔지니어링 및 기술 부문 우수상 수상자를 발표하다

2025 IEEE 메달 및 표창 수상자를 만나보세요. 상은 다음을...