SLMming으로 지연 시간 단축: NVIDIA의 첫 번째 온디바이스 소규모 언어 모델이 디지털 인간을 더욱 생생하게 만드는 방법

ike nnoli

1년 ago

편집자 주: 이 게시물은 다음의 일부입니다. AI 디코드 시리즈이 행사에서는 AI 기술을 보다 쉽게 접근 가능하게 만들어 AI에 대한 이해를 높이고 RTX PC 및 워크스테이션 사용자를 위한 새로운 하드웨어, 소프트웨어, 도구 및 가속 기능을 선보입니다.

이번 주 Gamescom에서 NVIDIA는 다음과 같이 발표했습니다. 엔비디아 에이스 — 기술 모음 디지털 인간을 살아있게 만들다 생성 AI를 탑재 – 이제 RTX AI로 로컬 구동되는 회사 최초의 온디바이스 소규모 언어 모델(SLM)이 포함됩니다.

이 모델은 네모트론-4 4B 지시더 나은 롤플레잉, 검색 증강 생성 및 함수 호출 기능을 제공하여 게임 캐릭터가 플레이어의 지시를 더 직관적으로 이해하고, 게이머에게 응답하고, 더 정확하고 관련성 있는 동작을 수행할 수 있습니다.

로 사용 가능 NVIDIA NIM 마이크로서비스 게임 개발자가 클라우드 및 온디바이스에 배포할 경우 이 모델은 낮은 메모리 사용량에 최적화되어 더 빠른 응답 시간을 제공하고 개발자에게 1억 개가 넘는 메모리를 활용할 수 있는 방법을 제공합니다. 지포스 RTX-전원 공급 PC 및 노트북 및 엔비디아 RTX-전원이 공급되는 워크스테이션.

SLM의 장점

AI 모델의 정확도와 성능은 학습에 사용된 데이터 세트의 크기와 품질에 따라 달라집니다. 대규모 언어 모델은 방대한 양의 데이터로 학습되지만 일반적으로 범용이며 대부분의 용도에 대한 과도한 정보를 포함합니다.

반면 SLM은 특정 사용 사례에 초점을 맞춥니다. 따라서 데이터가 적더라도 더 정확한 응답을 더 빠르게 제공할 수 있습니다. 이는 디지털 인간과 자연스럽게 대화하는 데 중요한 요소입니다.

Nemotron-4 4B는 더 큰 Nemotron-4 15B LLM에서 처음 증류되었습니다. 이 프로세스는 “학생”이라고 하는 더 작은 모델이 적절하게 “선생님”이라고 하는 더 큰 모델의 출력을 모방하도록 요구합니다. 이 프로세스 동안 학생 모델의 비중요한 출력은 모델의 매개변수 크기를 줄이기 위해 제거되거나 제거됩니다. 그런 다음 SLM이 양자화되어 모델 가중치의 정확도가 감소합니다.

Nemotron-4 4B는 매개변수가 적고 정밀도가 낮기 때문에 더 큰 Nemotron-4 LLM보다 메모리 사용량이 적고 첫 번째 토큰까지의 시간(응답이 시작되는 속도)이 더 빠르지만 증류로 인해 높은 수준의 정확도를 유지합니다. 더 작은 메모리 사용량은 NIM 마이크로서비스를 통합하는 게임과 앱이 오늘날 소비자가 소유한 더 많은 GeForce RTX AI PC와 노트북, NVIDIA RTX AI 워크스테이션에서 로컬로 실행할 수 있음을 의미합니다.

이 새로운 최적화된 SLM은 또한 특정 작업을 더 잘 수행하기 위해 교육 프롬프트에 대한 모델을 미세 조정하는 기술인 교육 튜닝을 위해 특별히 제작되었습니다. 이는 다음에서 볼 수 있습니다. 메카브레이크, 플레이어가 메카닉 게임 캐릭터와 대화하고 메카를 바꾸고 맞춤화하도록 지시할 수 있는 비디오 게임.

ACEs 업

ACE NIM 마이크로서비스 개발자가 클라우드나 RTX AI PC 및 워크스테이션을 통해 최첨단 생성 AI 모델을 배포하여 게임과 애플리케이션에 AI를 도입할 수 있도록 합니다. ACE NIM 마이크로서비스를 사용하면 NPC(비플레이어블 캐릭터)가 게임 내 플레이어와 실시간으로 동적으로 상호 작용하고 대화할 수 있습니다.

ACE는 음성-텍스트, 언어, 텍스트-음성 및 얼굴 애니메이션을 위한 핵심 AI 모델로 구성되어 있습니다. 또한 모듈식이므로 개발자는 특정 프로세스의 각 요소에 필요한 NIM 마이크로서비스를 선택할 수 있습니다.

엔비디아 리바 자동 음성 인식(ASR)은 사용자의 음성 언어를 처리하고 AI를 사용하여 실시간으로 매우 정확한 필사본을 제공합니다. 이 기술은 GPU 가속 다국어 음성 및 번역 마이크로서비스를 사용하여 완전히 사용자 정의 가능한 대화형 AI 파이프라인을 구축합니다. 지원되는 다른 ASR에는 영어 음성 인식에서 인간 수준의 견고성과 정확성에 접근하는 오픈소스 신경망인 OpenAI의 Whisper가 포함됩니다.

일단 디지털 텍스트로 번역되면, 해당 음성 입력은 Google의 Gemma, Meta의 Llama 3 또는 NVIDIA Nemotron-4 4B와 같은 LLM으로 전송되어 사용자의 원래 음성 입력에 대한 응답을 생성합니다.

다음으로, Riva 기술의 또 다른 부분인 텍스트-음성 변환이 오디오 응답을 생성합니다. ElevenLabs의 독점 AI 음성 및 음성 기술도 지원되며 위의 데모에서 볼 수 있듯이 ACE의 일부로 데모되었습니다.

마지막으로, 엔비디아 오디오2페이스 (A2F)는 여러 언어의 대화에 동기화할 수 있는 얼굴 표정을 생성합니다. 마이크로서비스를 사용하면 디지털 아바타가 라이브로 스트리밍되거나 후처리 중에 구워진 역동적이고 사실적인 감정을 표시할 수 있습니다.

AI 네트워크는 얼굴, 눈, 입, 혀, 머리 동작을 선택한 감정 범위와 강도 수준에 맞게 자동으로 애니메이션화합니다. 그리고 A2F는 오디오 클립에서 감정을 자동으로 추론할 수 있습니다.

마지막으로, 전체 캐릭터 또는 디지털 인간은 Unreal Engine이나 엔비디아 옴니버스 플랫폼.

민첩한 AI

ACE는 다양한 NVIDIA 기반 및 타사 AI 모델에 대한 모듈식 지원 외에도 개발자가 클라우드에서 또는 RTX AI PC 및 워크스테이션에서 로컬로 각 모델에 대한 추론을 실행할 수 있도록 합니다.

그만큼 NVIDIA AI 추론 관리자 소프트웨어 개발 키트는 경험, 작업 부하, 비용과 같은 다양한 요구 사항에 따라 하이브리드 추론을 허용합니다. PC 애플리케이션 개발자를 위해 필요한 AI 모델, 엔진 및 종속성을 PC에 미리 구성하여 AI 모델 배포 및 통합을 간소화합니다. 그런 다음 앱과 게임은 PC 또는 워크스테이션에서 클라우드로 원활하게 추론을 조정할 수 있습니다.

ACE NIM 마이크로서비스는 RTX AI PC 및 워크스테이션과 클라우드에서 로컬로 실행됩니다. 로컬로 실행 중인 현재 마이크로서비스에는 Audio2Face가 포함됩니다. 비밀 프로토콜 기술 데모 및 새로운 Nemotron-4 4B Instruct 및 Whisper ASR 메카브레이크.

무한과 그 너머로

디지털 휴먼은 게임에서 NPC를 훨씬 넘어선다. 지난달 SIGGRAPH 컨퍼런스에서 NVIDIA는 감정, 유머 등을 사용하여 사람들과 소통할 수 있는 대화형 디지털 휴먼인 “James”를 미리 선보였다. James는 ACE를 사용하는 고객 서비스 워크플로를 기반으로 한다.

수십 년에 걸쳐 인간과 기술 간의 의사소통 방식이 변화하면서 결국 디지털 인간이 탄생하게 되었습니다. 인간-컴퓨터 인터페이스의 미래는 친근한 얼굴을 갖게 될 것이고 물리적 입력이 필요 없을 것입니다.

디지털 휴먼은 보다 매력적이고 자연스러운 상호작용을 주도합니다. Gartner에 따르면, 대화형 오퍼링의 80%가 2025년까지 생성 AI를 내장하고, 고객 대면 애플리케이션의 75%가 감정이 있는 대화형 AI를 탑재할 것입니다. 디지털 휴먼은 고객 서비스, 의료, 소매, 원격 존재감, 로봇공학을 포함하여 게임을 넘어 여러 산업과 사용 사례를 혁신할 것입니다.

사용자는 지금 James와 실시간으로 상호 작용하여 이 미래를 엿볼 수 있습니다. ai.엔비디아닷컴.

생성적 AI는 모든 종류의 게임, 화상 회의 및 대화형 경험을 혁신하고 있습니다. 구독하여 새로운 소식과 다음 소식을 알아보세요. AI 디코드 뉴스레터.

SLM의 장점

ACEs 업

민첩한 AI

무한과 그 너머로

관련된 글: