생성 AI 개발자는 일반적으로 모델 크기와 정확도 사이에서 균형을 이룹니다. 하지만 NVIDIA에서 출시한 새로운 언어 모델은 두 가지의 장점을 모두 제공하며 컴팩트한 폼 팩터에서 최첨단 정확도를 제공합니다.
Mistral-NeMo-Minitron 8B – 오픈형의 소형화된 버전 미스트랄 네모 12B Mistral AI와 NVIDIA가 지난달 출시한 모델은 실행하기에 충분히 작습니다. 엔비디아 RTX-AI 기반 챗봇, 가상 비서, 콘텐츠 생성기 및 교육 도구에 대한 여러 벤치마크에서 여전히 탁월한 성과를 거두는 동시에 구동되는 워크스테이션. Minitron 모델은 NVIDIA NeMo를 사용하여 NVIDIA에서 추출합니다. NVIDIA NeMo는 맞춤형 생성 AI를 개발하기 위한 엔드투엔드 플랫폼입니다.
NVIDIA의 응용 딥 러닝 연구 부사장인 브라이언 카탄자로는 “우리는 두 가지 다른 AI 최적화 방법을 결합했습니다. 즉, Mistral NeMo의 120억 개의 매개변수를 80억 개로 줄이기 위한 가지치기와 정확성을 개선하기 위한 증류입니다.”라고 말했습니다. “이를 통해 Mistral-NeMo-Minitron 8B는 더 낮은 계산 비용으로 원래 모델과 비슷한 정확성을 제공합니다.”
더 큰 대응 제품과 달리, 작은 언어 모델은 워크스테이션과 노트북에서 실시간으로 실행될 수 있습니다. 이를 통해 리소스가 제한된 조직이 비용, 운영 효율성 및 에너지 사용을 최적화하는 동시에 인프라 전반에 생성 AI 기능을 배포하기가 더 쉬워집니다. 에지 장치에서 로컬로 언어 모델을 실행하면 데이터를 에지 장치에서 서버로 전달할 필요가 없으므로 보안상의 이점도 있습니다.
개발자는 Mistral-NeMo-Minitron 8B를 패키지로 시작하여 시작할 수 있습니다. 엔비디아 NIM 표준 애플리케이션 프로그래밍 인터페이스(API)를 갖춘 마이크로서비스 또는 모델을 다운로드할 수 있습니다. 껴안는 얼굴몇 분 안에 모든 GPU 가속 시스템에 배포할 수 있는 다운로드 가능한 NVIDIA NIM이 곧 출시될 예정입니다.
80억 개의 매개변수를 위한 최첨단 기술
이 크기의 모델인 Mistral-NeMo-Minitron 8B 9개의 인기 있는 벤치마크를 선도합니다 언어 모델을 위한 것입니다. 이러한 벤치마크는 언어 이해, 상식적 추론, 수학적 추론, 요약, 코딩 및 진실한 답변을 생성하는 능력을 포함한 다양한 작업을 포괄합니다.
NVIDIA NIM 마이크로서비스로 패키징된 이 모델은 낮은 지연 시간에 최적화되어 있어 사용자에게 더 빠른 응답을 제공하고, 높은 처리량은 프로덕션에서 더 높은 컴퓨팅 효율성을 의미합니다.
어떤 경우에는 개발자가 스마트폰이나 로봇과 같은 내장형 장치에서 실행하기 위해 더 작은 버전의 모델을 원할 수 있습니다. 이를 위해 80억 개의 매개변수 모델을 다운로드하고 다음을 사용할 수 있습니다. 엔비디아 AI 파운드리이를 정리하고 정제하여 기업별 애플리케이션에 맞게 최적화된 더 작은 신경망으로 만듭니다.
그만큼 AI 파운드리 플랫폼 및 서비스는 개발자에게 NIM 마이크로서비스로 패키징된 맞춤형 기초 모델을 만드는 풀스택 솔루션을 제공합니다. 여기에는 인기 있는 기초 모델이 포함됩니다. 엔비디아 네모 플랫폼 및 전용 용량 NVIDIA DGX 클라우드. NVIDIA AI Foundry를 사용하는 개발자도 액세스할 수 있습니다. 엔비디아 AI 엔터프라이즈프로덕션 배포에 대한 보안, 안정성 및 지원을 제공하는 소프트웨어 플랫폼입니다.
원래 Mistral-NeMo-Minitron 8B 모델은 최첨단 정확도를 기반으로 시작했기 때문에 AI Foundry를 사용하여 축소한 버전도 훨씬 적은 양의 교육 데이터와 컴퓨팅 인프라만으로도 사용자에게 높은 정확도를 제공합니다.
가지치기와 증류의 장점 활용
더 작은 모델로 높은 정확도를 달성하기 위해 팀은 가지치기와 증류를 결합한 프로세스를 사용했습니다. 가지치기는 정확도에 가장 적게 기여하는 모델 가중치를 제거하여 신경망의 크기를 줄입니다. 증류하는 동안 팀은 가지치기 프로세스를 통해 감소한 정확도를 크게 높이기 위해 작은 데이터 세트에서 이 가지치기된 모델을 다시 학습했습니다.
최종 결과는 더 작고 효율적이면서도 더 큰 모델의 예측 정확도를 제공하는 모델입니다.
이 기술을 사용하면 관련 모델 계열 내의 각 추가 모델을 학습하는 데 원래 데이터 세트의 일부만 필요하므로 작은 모델을 처음부터 학습하는 것보다 더 큰 모델을 가지치고 정제하는 데 드는 컴퓨팅 비용을 최대 40배까지 절약할 수 있습니다.
읽어보세요 NVIDIA 기술 블로그 그리고 기술 보고서 자세한 내용은.
NVIDIA도 이번 주에 발표했습니다. Nemotron-Mini-4B-Instruct또 다른 소규모 언어 모델이 최적화되었습니다. 메모리 사용량이 적고 응답 시간이 빠릅니다. ~에 NVIDIA GeForce RTX AI PC 및 노트북. 이 모델은 클라우드 및 온디바이스 배포를 위한 NVIDIA NIM 마이크로서비스로 제공되며 다음의 일부입니다. 엔비디아 에이스생성 AI를 기반으로 음성, 지능, 애니메이션을 제공하는 디지털 인간 기술 모음입니다.
브라우저나 API에서 NIM 마이크로서비스로 두 모델을 모두 경험해보세요. ai.엔비디아닷컴.
보다 알아채다 소프트웨어 제품 정보에 관하여.