기업들은 빠르게 채택하고 있습니다 생성형 AI대규모 언어 모델(LLM(법학 석사)), 고급 그래픽 및 디지털 트윈 운영 효율성을 높이고, 비용을 절감하고, 혁신을 추진합니다.
그러나 이러한 기술을 효과적으로 도입하려면 기업은 최첨단 풀스택 가속 컴퓨팅 플랫폼에 액세스할 수 있어야 합니다. 이러한 수요를 충족하기 위해 Oracle Cloud Infrastructure(OCI)는 오늘 다음과 같이 발표했습니다. 엔비디아 L40S GPU 주문 가능한 베어 메탈 인스턴스와 단일 가상 머신의 가속으로 제공되는 새로운 가상 머신의 출시 예정 NVIDIA H100 텐서 코어 GPU이 새로운 VM은 NVIDIA HGX H100 8-GPU 베어 메탈 인스턴스를 포함하는 OCI의 기존 H100 포트폴리오를 확장합니다.
NVIDIA 네트워킹과 결합되고 NVIDIA 소프트웨어 스택을 실행하는 이 플랫폼은 강력한 성능과 효율성을 제공하여 기업이 생성적 AI를 발전시킬 수 있도록 지원합니다.
NVIDIA L40S, 이제 OCI에서 주문 가능
NVIDIA L40S는 생성 AI, 그래픽 및 비디오 애플리케이션을 위한 획기적인 다중 워크로드 가속을 제공하도록 설계된 범용 데이터 센터 GPU입니다. 4세대 Tensor Cores와 FP8 데이터 형식을 지원하는 L40S GPU는 소규모에서 중규모 LLM의 훈련 및 미세 조정과 광범위한 생성 AI 사용 사례에 걸친 추론에서 탁월합니다.
예를 들어, 단일 L40S GPU(FP8)는 최대 다음을 생성할 수 있습니다. 초당 1.4배 더 많은 토큰 하나보다 NVIDIA A100 텐서 코어 GPU (FP16) 라마 3 8B용 엔비디아 텐서RT-LLM 입력 및 출력 시퀀스 길이는 128입니다.
L40S GPU는 또한 동급 최고의 그래픽과 미디어 가속을 제공합니다. 3세대 NVIDIA 레이 트레이싱 코어(RT 코어)와 여러 인코드/디코드 엔진은 고급 시각화 및 디지털 트윈 애플리케이션에 이상적입니다.
L40S GPU는 이전 모델보다 최대 3.8배 더 높은 실시간 레이 트레이싱 성능을 제공하며, 더 빠른 렌더링과 더 부드러운 프레임 속도를 위해 NVIDIA DLSS 3을 지원합니다. 이를 통해 GPU는 애플리케이션을 개발하는 데 이상적입니다. 엔비디아 옴니버스 플랫폼으로, 실시간, 사실적인 3D 시뮬레이션과 AI 지원 디지털 트윈을 가능하게 합니다. L40S GPU에서 Omniverse를 사용하면 기업은 산업 디지털화를 위한 고급 3D 애플리케이션과 워크플로를 개발하여 생산에 들어가기 전에 실시간으로 제품, 프로세스 및 시설을 설계, 시뮬레이션 및 최적화할 수 있습니다.
OCI는 BM.GPU.L40S.4 베어 메탈 컴퓨트 형태로 L40S GPU를 제공할 예정이며, 각각 48GB의 GDDR6 메모리를 갖춘 4개의 NVIDIA L40S GPU가 특징입니다. 이 형태에는 7.38TB 용량의 로컬 NVMe 드라이브, 112개의 코어와 1TB의 시스템 메모리를 갖춘 4세대 Intel Xeon CPU가 포함됩니다.
이러한 모양은 OCI의 베어 메탈 컴퓨팅 아키텍처를 사용하여 높은 처리량과 대기 시간에 민감한 AI 또는 머신 러닝 워크로드에 대한 모든 가상화의 오버헤드를 제거합니다. 가속화된 컴퓨팅 모양은 엔비디아 블루필드-3 DPU 향상된 서버 효율성을 위해 데이터 센터 작업을 CPU에서 오프로드하여 네트워킹, 스토리지 및 보안 워크로드를 가속화합니다. BlueField-3 DPU를 사용하면 전체 함대에서 오프박스 가상화라는 OCI의 전략이 더욱 강화됩니다.
OCI 슈퍼클러스터 NVIDIA L40S를 사용하면 최대 3,840개 GPU에 대해 800Gbps의 노드 간 대역폭과 낮은 대기 시간으로 초고성능을 구현할 수 있습니다. OCI의 클러스터 네트워크는 다음을 사용합니다. NVIDIA ConnectX-7 NIC RoCE v2를 통해 AI 교육을 포함하여 높은 처리량과 지연에 민감한 워크로드를 지원합니다.
Beamr Cloud의 CEO인 샤론 카멜은 “30% 더 효율적인 비디오 인코딩을 위해 베어 메탈 인스턴스와 NVIDIA L40S GPU를 갖춘 OCI AI 인프라를 선택했습니다.”라고 말했습니다. “OCI에서 Beamr Cloud로 처리한 비디오는 스토리지와 네트워크 대역폭 소비가 최대 50% 감소하여 파일 전송 속도가 2배 빨라지고 최종 사용자의 생산성이 향상됩니다. Beamr은 OCI 고객에게 비디오 AI 워크플로를 제공하여 비디오의 미래에 대비할 수 있도록 준비시켜 줄 것입니다.”
OCI에서 곧 출시되는 단일 GPU H100 VM
단일 가속으로 VM.GPU.H100.1 컴퓨팅 가상 머신 모양 NVIDIA H100 텐서 코어 GPU곧 OCI에 출시됩니다. 이를 통해 생성 AI 및 HPC 워크로드에 NVIDIA H100 GPU의 성능을 활용하려는 기업에 비용 효율적인 주문형 액세스가 제공됩니다.
단일 H100은 더 작은 작업 부하와 LLM 추론을 위한 좋은 플랫폼을 제공합니다. 예를 들어, 하나의 H100 GPU는 다음을 생성할 수 있습니다. 초당 27,000개 토큰 FP16 정밀도에서 단일 A100 GPU보다 최대 4배 더 많은 처리량(Llama 3 8B) 엔비디아 텐서RT-LLM 입력 및 출력 시퀀스 길이는 128이고 정밀도는 FP8입니다.
VM.GPU.H100.1 형태는 2×3.4TB의 NVMe 드라이브 용량, 13개의 4세대 Intel Xeon 프로세서 코어, 246GB의 시스템 메모리를 포함하고 있어 다양한 AI 작업에 적합합니다.
Altair의 데이터 관리 분석 부문 수석 엔지니어인 Yeshwant Mummaneni는 “NVIDIA H100 및 A100 GPU, 저지연 Supercluster 및 고성능 스토리지를 탑재한 Oracle Cloud의 베어 메탈 컴퓨팅은 Altair의 계산 유체 역학 및 구조 역학 솔버에 최대 20% 더 나은 가격 대비 성능을 제공합니다.”라고 말했습니다. “Altair Unlimited 가상 어플라이언스용 가상 머신에서 이러한 GPU를 활용하기를 기대합니다.”
검증을 위해 사용 가능한 GH200 베어 메탈 인스턴스
OCI는 또한 고객 테스트를 위해 BM.GPU.GH200 컴퓨팅 형태를 제공했습니다. NVIDIA Grace Hopper 슈퍼칩 그리고 NV링크-C2C대역폭이 높고 캐시가 일관된 900GB/s 연결 엔비디아 그레이스 CPU 그리고 엔비디아 호퍼 GPU. 이는 600GB 이상의 액세스 가능한 메모리를 제공하여 NVIDIA A100 GPU에 비해 테라바이트 규모의 데이터를 실행하는 애플리케이션의 성능이 최대 10배 더 높아집니다.
엔터프라이즈 AI를 위한 최적화된 소프트웨어
기업은 OCI에서 AI, HPC 및 데이터 분석 워크로드를 가속화하기 위해 다양한 NVIDIA GPU를 보유하고 있습니다. 그러나 이러한 GPU 가속 컴퓨팅 인스턴스의 잠재력을 최대한 활용하려면 최적화된 소프트웨어 계층이 필요합니다.
엔비디아 NIM의 일부 OCI Marketplace에서 이용 가능한 NVIDIA AI Enterprise 소프트웨어 플랫폼는 세계적 수준의 생성 AI 애플리케이션을 구축하기 위해 고성능 AI 모델 추론을 안전하고 안정적으로 배포하도록 설계된 사용하기 쉬운 마이크로서비스 세트입니다.
NVIDIA GPU에 최적화된 NIM 사전 구축 컨테이너는 개발자에게 소유 비용 개선, 출시 시간 단축 및 보안을 제공합니다. 인기 있는 커뮤니티 모델을 위한 NIM 마이크로서비스는 다음에서 찾을 수 있습니다. NVIDIA API 카탈로그OCI에 쉽게 배포될 수 있습니다.
NVIDIA H200 Tensor Core GPU 및 NVIDIA Blackwell GPU를 비롯한 향후 GPU 가속 인스턴스를 통해 성능이 지속적으로 향상될 것입니다.
L40S GPU를 주문하고 GH200 Superchip을 테스트하세요 OCI에 연락하기. 자세히 알아보려면 가입하세요 SIGGRAPH에서의 Oracle과 NVIDIA세계 최고의 그래픽 컨퍼런스가 8월 1일까지 진행됩니다.
보다 알아채다 소프트웨어 제품 정보에 관하여.