편집자 주: 이 게시물은 다음의 일부입니다. AI 디코드 시리즈이 행사에서는 AI 기술을 보다 쉽게 접근 가능하게 만들어 AI에 대한 이해를 높이고 NVIDIA RTX PC 및 워크스테이션 사용자를 위한 새로운 하드웨어, 소프트웨어, 도구 및 가속 기능을 선보입니다.
빠르게 진화하는 인공지능의 세계에서 생성형 AI 상상력을 사로잡고 산업을 혁신하고 있습니다. 그 뒤에서, 숨겨진 영웅이 모든 것을 가능하게 만들고 있습니다. 바로 마이크로서비스 아키텍처입니다.
현대 AI 애플리케이션의 빌딩 블록
마이크로서비스는 강력한 아키텍처로 등장하여 사람들이 소프트웨어를 설계, 구축, 배포하는 방식을 근본적으로 바꾸고 있습니다.
마이크로서비스 아키텍처는 애플리케이션을 느슨하게 결합되고 독립적으로 배포 가능한 서비스 모음으로 나눕니다. 각 서비스는 특정 기능을 담당하고 잘 정의된 애플리케이션 프로그래밍 인터페이스 또는 API를 통해 다른 서비스와 통신합니다. 이 모듈식 접근 방식은 모든 기능이 단일의 긴밀하게 통합된 애플리케이션으로 번들로 제공되는 기존의 올인원 아키텍처와 극명하게 대조됩니다.
서비스를 분리함으로써 팀은 동시에 여러 구성 요소를 작업하여 개발 프로세스를 가속화하고 전체 애플리케이션에 영향을 미치지 않고 독립적으로 업데이트를 롤아웃할 수 있습니다. 개발자는 특정 서비스를 빌드하고 개선하는 데 집중하여 더 나은 코드 품질과 더 빠른 문제 해결로 이어질 수 있습니다. 이러한 전문화를 통해 개발자는 특정 도메인의 전문가가 될 수 있습니다.
서비스는 수요에 따라 독립적으로 확장하여 리소스 활용을 최적화하고 전반적인 시스템 성능을 개선할 수 있습니다. 또한, 다양한 서비스는 다양한 기술을 사용할 수 있으므로 개발자는 각 특정 작업에 가장 적합한 도구를 선택할 수 있습니다.
완벽한 조합: 마이크로서비스와 생성형 AI
마이크로서비스 아키텍처는 확장성, 향상된 모듈성, 유연성 덕분에 생성적 AI 애플리케이션을 개발하는 데 특히 적합합니다.
특히 AI 모델 대규모 언어 모델상당한 컴퓨팅 리소스가 필요합니다. 마이크로서비스는 전체 시스템에 영향을 미치지 않고도 이러한 리소스 집약적 구성 요소를 효율적으로 확장할 수 있도록 합니다.
생성적 AI 애플리케이션은 종종 데이터 전처리, 모델 추론 및 후처리와 같은 여러 단계를 포함합니다. 마이크로서비스를 사용하면 각 단계를 독립적으로 개발, 최적화 및 확장할 수 있습니다. 또한 AI 모델과 기술이 빠르게 진화함에 따라 마이크로서비스 아키텍처를 사용하면 전체 애플리케이션을 중단하지 않고도 새 모델을 더 쉽게 통합하고 기존 모델을 교체할 수 있습니다.
NVIDIA NIM: 생성적 AI 배포 간소화
AI 기반 애플리케이션에 대한 수요가 증가함에 따라 개발자는 AI 모델을 효율적으로 배포하고 관리하는 데 어려움을 겪습니다.
NVIDIA NIM 추론 마이크로서비스 클라우드, 데이터 센터, 워크스테이션, 데스크톱 및 랩톱에 배포하기 위한 최적화된 컨테이너로 모델을 제공합니다. 각 NIM 컨테이너에는 다음이 포함됩니다. 사전 훈련된 AI 모델 그리고 필요한 모든 런타임 구성 요소를 갖추고 있어 AI 기능을 애플리케이션에 쉽게 통합할 수 있습니다.
NIM은 간소화된 통합, 프로덕션 준비성 및 유연성을 제공하여 AI 기능을 통합하려는 애플리케이션 개발자에게 획기적인 접근 방식을 제공합니다. 개발자는 NIM 추론 마이크로서비스가 성능에 최적화되어 있고 런타임 최적화가 제공되며 업계 표준 API를 지원하므로 데이터 준비, 모델 교육 또는 사용자 정의의 복잡성에 대해 걱정하지 않고 애플리케이션 빌드에 집중할 수 있습니다.
손끝의 AI: 워크스테이션 및 PC의 NVIDIA NIM
엔터프라이즈 생성 AI 애플리케이션을 구축하는 데는 많은 과제가 따릅니다. 클라우드 호스팅 모델 API는 개발자가 시작하는 데 도움이 될 수 있지만 데이터 개인 정보 보호, 보안, 모델 응답 지연, 정확성, API 비용 및 확장과 관련된 문제는 종종 프로덕션으로 가는 길을 방해합니다.
NIM이 적용된 워크스테이션은 개발자에게 광범위한 모델과 성능 최적화된 추론 마이크로서비스에 대한 안전한 액세스를 제공합니다.
클라우드 호스팅 API와 관련된 지연, 비용 및 규정 준수 문제와 모델 배포의 복잡성을 피함으로써 개발자는 애플리케이션 개발에 집중할 수 있습니다. 이를 통해 프로덕션에 적합한 생성형 AI 애플리케이션의 제공이 가속화되어 데이터 센터와 클라우드에서 성능 최적화를 통해 원활하고 자동적인 확장이 가능합니다.
최근 발표된 일반 공개 NIM으로서의 Meta Llama 3 8B 모델RTX 시스템에서 로컬로 실행할 수 있는 , 최첨단 언어 모델 기능을 개별 개발자에게 제공하여 클라우드 리소스가 필요 없이 로컬 테스트 및 실험을 가능하게 합니다. NIM을 로컬로 실행하면 개발자는 정교한 검색 증강 생성(RAG) 프로젝트를 자신의 워크스테이션에서 바로 진행할 수 있습니다.
로컬 RAG는 클라우드 기반 서비스나 외부 API에 의존하지 않고 로컬 하드웨어에서만 RAG 시스템을 구현하는 것을 말합니다.
개발자는 하나 이상의 워크스테이션에서 Llama 3 8B NIM을 사용할 수 있습니다. NVIDIA RTX 6000 Ada 세대 GPU 또는 NVIDIA RTX 시스템에서 로컬 하드웨어에서 완전히 엔드투엔드 RAG 시스템을 구축할 수 있습니다. 이 설정을 통해 개발자는 Llama 3 8B의 모든 기능을 활용하여 고성능과 낮은 지연 시간을 보장할 수 있습니다.
RAG 파이프라인 전체를 로컬로 실행함으로써 개발자는 데이터에 대한 완전한 제어권을 유지하여 개인 정보 보호 및 보안을 보장할 수 있습니다. 이 접근 방식은 고객 지원 챗봇, 개인화된 콘텐츠 생성 도구 및 대화형 가상 비서와 같이 실시간 응답과 높은 정확도가 필요한 애플리케이션을 빌드하는 개발자에게 특히 유용합니다.
하이브리드 RAG는 로컬 및 클라우드 기반 리소스를 결합하여 AI 애플리케이션의 성능과 유연성을 최적화합니다. 엔비디아 AI 워크벤치개발자는 하이브리드 RAG Workbench Project로 시작할 수 있습니다. 이 예제 애플리케이션은 클라우드나 데이터 센터에서 NIM을 사용하여 추론을 수행하는 동시에 벡터 데이터베이스를 실행하고 모델을 로컬로 임베드하는 데 사용할 수 있으며, 리소스 할당에 대한 유연한 접근 방식을 제공합니다.
이 하이브리드 설정을 통해 개발자는 로컬 및 클라우드 리소스 간의 계산 부하를 균형 있게 조정하여 성능과 비용을 최적화할 수 있습니다. 예를 들어, 벡터 데이터베이스와 임베딩 모델을 로컬 워크스테이션에 호스팅하여 빠른 데이터 검색 및 처리를 보장하는 한편, 계산 집약적인 추론 작업은 강력한 클라우드 기반 NIM 추론 마이크로서비스로 오프로드할 수 있습니다. 이러한 유연성 덕분에 개발자는 애플리케이션을 원활하게 확장하여 다양한 작업 부하를 수용하고 일관된 성능을 보장할 수 있습니다.
엔비디아 에이스 NIM 추론 마이크로서비스는 RTX PC 및 워크스테이션에서 실행되는 생성 AI를 통해 디지털 인간, AI NPC(비플레이어블 캐릭터) 및 고객 서비스를 위한 대화형 아바타를 구현합니다.
Riva 자동 음성 인식, 텍스트 음성 변환, 인공신경망 기계 번역을 포함한 음성을 위한 ACE NIM 추론 마이크로서비스를 사용하면 정확한 필사, 번역 및 사실적인 음성을 제공할 수 있습니다.
NVIDIA Nemotron 소규모 언어 모델은 최소한의 메모리 사용을 위한 INT4 양자화를 포함하고 롤플레이와 RAG 사용 사례를 지원하는 인텔리전스용 NIM입니다.
그리고 외관을 위한 ACE NIM 추론 마이크로서비스에는 초현실적인 비주얼로 생생한 애니메이션을 제공하는 Audio2Face와 Omniverse RTX가 포함됩니다. 이러한 서비스는 더욱 몰입적이고 매력적인 게임 캐릭터를 제공하며, 가상 고객 서비스 에이전트와 상호 작용하는 사용자에게 더욱 만족스러운 경험을 제공합니다.
NIM에 뛰어들다
AI가 발전함에 따라, 그 기능을 신속하게 배포하고 확장하는 능력이 점점 더 중요해질 것입니다.
NVIDIA NIM 마이크로서비스는 이 새로운 시대의 AI 애플리케이션 개발을 위한 기반을 제공하여 획기적인 혁신을 가능하게 합니다. 차세대 AI 기반 게임을 구축하든, 고급 자연어 처리 사용자는 애플리케이션을 개발하거나 지능형 자동화 시스템을 만들 때 강력한 개발 도구에 손쉽게 접근할 수 있습니다.
시작하는 방법:
- NVIDIA NIM 마이크로서비스를 경험하고 상호 작용하세요 ai.엔비디아닷컴.
- 참여하세요 NVIDIA 개발자 프로그램 AI 기반 애플리케이션을 테스트하고 프로토타입을 제작하기 위해 NIM에 무료로 액세스하세요.
- 구매하다 엔비디아 AI 엔터프라이즈 프로덕션 배포를 위한 90일 무료 평가 기간이 제공되는 라이선스를 구매하고 NVIDIA NIM을 사용하여 클라우드나 데이터 센터에서 AI 모델을 셀프 호스팅하세요.
생성적 AI는 모든 종류의 게임, 화상 회의 및 대화형 경험을 혁신하고 있습니다. 구독하여 새로운 소식과 다음 소식을 알아보세요. AI 디코드 뉴스레터.