처럼 인공 지능 (AI) 기술 발전, 효율적이고 확장 가능한 추론 솔루션의 필요성이 빠르게 증가했습니다. 곧 AI 추론은 회사가 실시간 예측을 위해 모델을 빠르게 실행하는 데 중점을두기 때문에 교육보다 더 중요해질 것으로 예상됩니다. 이 혁신은 최소한의 지연으로 다량의 데이터를 처리하기 위해 강력한 인프라가 필요하다는 것을 강조합니다.
추론은 같은 산업에서 필수적입니다 자율 주행 차사기 탐지 및 실시간 의료 진단. 그러나 비디오 스트리밍, 라이브 데이터 분석 및 고객 통찰력과 같은 작업의 요구를 충족시키기 위해 확장 할 때는 크게 어려운 과제가 있습니다. 전통적인 AI 모델은 이러한 고 처리량 작업을 효율적으로 처리하기 위해 노력하여 종종 높은 비용과 지연으로 이어집니다. 비즈니스가 AI 기능을 확장함에 따라 성과를 희생하거나 비용을 증가시키지 않고 대량의 추론 요청을 관리하는 솔루션이 필요합니다.
이것은 어디에 있습니다 Nvidia Dynamo 2025 년 3 월에 출시 된 Dynamo는 AI 추론의 규모에 따라 설계된 새로운 AI 프레임 워크입니다. 비즈니스는 강력한 성능을 유지하고 비용을 줄이는 동시에 추론 워크로드를 가속화하는 데 도움이됩니다. NVIDIA의 강력한 GPU 아키텍처를 기반으로 CUDA, Tensorrt 및 Triton과 같은 도구와 통합 된 Dynamo는 회사가 AI 추론을 관리하는 방법을 바꾸어 모든 규모의 비즈니스에 더 쉽고 효율적입니다.
규모에 따라 AI 추론의 점점 커지고 있습니다
AI 추론은 미리 훈련 된 것을 사용하는 과정입니다 기계 학습 실제 데이터에서 예측을하는 모델이며 많은 실시간 AI 응용 프로그램에 필수적입니다. 그러나 전통적인 시스템은 종종 자율 주행 차량, 사기 탐지 및 의료 진단과 같은 분야에서 AI 추론에 대한 수요가 증가하는 데 어려움을 겪고 있습니다.
실시간 AI에 대한 수요는 빠르게 증가하고 있으며 빠른 현장 의사 결정의 필요성으로 인해 발생합니다. 2024 년 5 월 포레스터 보고서에 따르면 비즈니스의 67%가 통합 된 것으로 나타났습니다 생성 AI 실시간 AI의 중요성을 강조하면서 그들의 운영에. 추론은 자율 주행 차가 빠른 결정을 내리고 금융 거래에서 사기를 감지하고 의료 이미지 분석과 같은 의료 진단을 지원하는 등 많은 AI 중심 작업의 핵심입니다.
이러한 수요에도 불구하고 전통적인 시스템은 이러한 작업의 규모를 처리하기 위해 노력하고 있습니다. 주요 문제 중 하나는 GPU의 활용률이 낮은 것입니다. 예를 들어, 많은 시스템에서 GPU 활용은 약 10%에서 15%로 남아 있으며, 이는 상당한 계산 전력이 활용되지 않습니다. AI 추론에 대한 워크로드가 증가함에 따라 메모리 제한 및 캐시 스 래싱과 같은 추가 문제가 발생하여 지연이 발생하고 전반적인 성능을 줄입니다.
실시간 AI 애플리케이션에는 낮은 대기 시간을 달성하는 것이 중요하지만, 특히 클라우드 인프라를 사용할 때는 많은 기존 시스템이 유지하기 위해 노력합니다. 에이 맥킨지 보고서 AI 프로젝트의 70%가 데이터 품질 및 통합 문제로 인해 목표를 달성하지 못한다는 것을 보여줍니다. 이러한 과제는보다 효율적이고 확장 가능한 솔루션의 필요성을 강조합니다. 이것은 Nvidia Dynamo가 들어오는 곳입니다.
Nvidia Dynamo의 AI 추론 최적화
Nvidia Dynamo는 분산 된 멀티 GPU 환경에서 대규모 AI 추론 작업을 최적화하는 오픈 소스의 모듈 식 프레임 워크입니다. 생성 AI 및 GPU의 활용률, 메모리 병목 현상 및 비효율적 인 요청 라우팅과 같은 추론 모델의 일반적인 과제를 해결하는 것을 목표로합니다. Dynamo는 하드웨어 인식 최적화와 소프트웨어 혁신을 결합하여 이러한 문제를 해결하여 수요가 많은 AI 애플리케이션을위한보다 효율적인 솔루션을 제공합니다.
Dynamo의 주요 특징 중 하나는 분리 된 서빙 아키텍처입니다. 이 접근법은 토큰 생성과 관련된 디코드 단계에서 컨텍스트 처리를 처리하는 계산 집중 프리 필 단계를 분리합니다. 각 단계를 별개의 GPU 클러스터에 할당함으로써 Dynamo는 독립적 인 최적화를 허용합니다. Prefill Phase는 더 빠른 컨텍스트 섭취를 위해 높은 메모리 GPU를 사용하는 반면, Decode Phase는 효율적인 토큰 스트리밍을 위해 대기 시간 최적화 된 GPU를 사용합니다. 이 분리는 처리량을 향상시켜 모델을 만듭니다 70B에 전화하십시오 두 배 빠른.
여기에는 실시간 활용을 기반으로 GPU 할당을 동적으로 예약하는 GPU 리소스 플래너가 포함되어 있으며, 프리 플릴과 디코드 클러스터 간의 워크로드를 최적화하여 과잉 프로비저닝 및 유휴주기를 방지합니다. 또 다른 주요 기능은 KV Cache-Aware Smart 라우터로, 들어오는 요청이 GPU가 관련 키 값 (KV) 캐시 데이터를 보유하는 GPU로 연결되어 중복 계산을 최소화하고 효율성을 향상시킵니다. 이 기능은 특히 표준 대형 언어 모델보다 더 많은 토큰을 생성하는 다단계 추론 모델에 특히 도움이됩니다.
그만큼 nvidia 추론 tranxfer 라이브러리 (NIXL) HBM 및 NVME와 같은 GPU와 이질적인 메모리/스토리지 티어 사이의 저도 통신이 적은 통신을 가능하게하는 또 다른 중요한 구성 요소입니다. 이 기능은 실리 초 kV 캐시 검색을 지원하며, 이는 시간에 민감한 작업에 중요합니다. 분산 된 KV 캐시 관리자는 또한 캐시 데이터를 자주 자주 액세스 한 캐시 데이터에 시스템 메모리 또는 SSD에 오프로드하여 활성 계산을위한 GPU 메모리를 확보 할 수 있도록 도와줍니다. 이 접근법은 특히 DeepSeek-R1 671B와 같은 대형 모델의 경우 전반적인 시스템 성능을 최대 30 배 향상시킵니다.
Nvidia Dynamo는 Cuda, Tensorrt 및 Blackwell GPU를 포함한 Nvidia의 전체 스택과 통합되며 Vllm 및 Tensorrt-LLM과 같은 인기있는 추론을 지원합니다. 벤치 마크는 GB200 NVL72 시스템의 DeepSeek-R1과 같은 모델의 경우 초당 최대 30 배 더 높은 토큰을 나타냅니다.
Triton 추론 서버의 후속 인으로서 Dynamo는 확장 가능하고 비용 효율적인 추론 솔루션이 필요한 AI 공장을 위해 설계되었습니다. 자율 시스템, 실시간 분석 및 다중 모델 에이전트 워크 플로우에 도움이됩니다. 오픈 소스 및 모듈 식 디자인을 사용하면 쉽게 사용자 정의 할 수 있으므로 다양한 AI 워크로드에 적응할 수 있습니다.
실제 응용 프로그램 및 산업 영향
Nvidia Dynamo는 실시간 AI 추론이 중요한 산업 전반에 걸쳐 가치를 보여주었습니다. 자율 시스템, 실시간 분석 및 AI 공장을 향상시켜 고 처리량 AI 애플리케이션을 가능하게합니다.
회사가 좋아합니다 함께 ai Dynamo를 사용하여 NVIDIA Blackwell GPU에서 DeepSeek-R1 모델을 실행할 때 최대 30 배의 용량 부스트를 달성했습니다. 또한 Dynamo의 지능형 요청 라우팅 및 GPU 스케줄링은 대규모 AI 배포의 효율성을 향상시킵니다.
경쟁 우위 : Dynamo vs. 대안
Nvidia Dynamo는 AWS Fellentia 및 Google TPU와 같은 대안에 비해 주요 이점을 제공합니다. 대규모 AI 워크로드를 효율적으로 처리하고 GPU 스케줄링, 메모리 관리 및 여러 GPU의 성능을 향상시키기위한 라우팅을 요청하도록 설계되었습니다. AWS 클라우드 인프라와 밀접한 관련이있는 AWS Fellentia와 달리 Dynamo는 하이브리드 클라우드와 온 프레미스 배포를 지원함으로써 유연성을 제공하여 비즈니스가 공급 업체 잠금을 피할 수 있도록 도와줍니다.
Dynamo의 강점 중 하나는 오픈 소스 모듈 식 아키텍처로, 회사가 요구에 따라 프레임 워크를 사용자 정의 할 수 있습니다. 추론 프로세스의 모든 단계를 최적화하여 AI 모델이 원활하고 효율적으로 실행되면서 사용 가능한 계산 리소스를 최대한 활용합니다. 확장 성과 유연성에 중점을 둔 Dynamo는 비용 효율적이고 고성능 AI 추론 솔루션을 찾고있는 기업에 적합합니다.
결론
Nvidia Dynamo는 비즈니스가 실시간 AI 애플리케이션을 통해 직면 한 문제에 대한 확장 가능하고 효율적인 솔루션을 제공함으로써 AI 추론의 세계를 변화시키고 있습니다. 오픈 소스 및 모듈 식 설계를 통해 GPU 사용량을 최적화하고 메모리를 더 잘 관리하며 경로 요청을보다 효과적으로 관리 할 수있어 대규모 AI 작업에 적합합니다. 주요 프로세스를 분리하고 GPU가 동적으로 조정할 수있게함으로써 Dynamo는 성능을 높이고 비용을 줄입니다.
기존 시스템 또는 경쟁 업체와 달리 Dynamo는 하이브리드 클라우드 및 온 프레미스 설정을 지원하여 비즈니스에 더 많은 유연성을 제공하고 모든 공급 업체에 대한 의존성을 줄입니다. Nvidia Dynamo는 인상적인 성능과 적응성을 통해 AI 추론에 대한 새로운 표준을 설정하여 기업들에게 AI 요구에 대한 고급, 비용 효율적이며 확장 가능한 솔루션을 제공합니다.
게시물 규모의 AI 추론 : Nvidia Dynamo의 고성능 아키텍처 탐색 먼저 나타났습니다 Unite.ai.