More Than Fine: NVIDIA RTX AI 툴킷에서 Multi-LoRA 지원이 이제 사용 가능

Date:

편집자 주: 이 게시물은 다음의 일부입니다. AI 디코드 시리즈이 행사에서는 AI 기술을 보다 쉽게 ​​접근 가능하게 만들어 AI에 대한 이해를 높이고 RTX PC 사용자를 위한 새로운 하드웨어, 소프트웨어, 도구 및 가속 기능을 선보입니다.

대규모 언어 모델 텍스트 기반 콘텐츠를 빠르게 이해하고, 요약하고, 생성하는 능력을 통해 AI 분야에서 가장 흥미로운 발전을 주도하고 있습니다.

이러한 기능은 생산성 도구, 디지털 보조, 비디오 게임의 비플레이어블 캐릭터 등 다양한 사용 사례를 지원합니다. 하지만 이는 모든 상황에 맞는 솔루션이 아니며 개발자는 종종 LLM을 미세 조정하여 애플리케이션의 요구 사항에 맞춰야 합니다.

그만큼 NVIDIA RTX AI 툴킷 저랭크 적응 또는 LoRA라는 기술을 통해 RTX AI PC 및 워크스테이션에서 AI 모델을 미세 조정하고 배포하는 것을 쉽게 만듭니다. 오늘 출시된 새로운 업데이트는 여러 LoRA 어댑터를 동시에 사용하도록 지원합니다. 엔비디아 텐서RT-LLM AI 가속 라이브러리는 미세 조정된 모델의 성능을 최대 6배까지 향상시킵니다.

성능을 위해 미세 조정됨

LLM은 더 높은 성과를 달성하고 늘어나는 사용자 요구를 충족하기 위해 신중하게 맞춤화되어야 합니다.

이러한 기본 모델은 방대한 양의 데이터로 학습되지만 개발자의 특정 사용 사례에 필요한 맥락이 부족한 경우가 많습니다. 예를 들어, 일반적인 LLM은 비디오 게임 대화를 생성할 수 있지만 어두운 과거와 권위에 대한 거의 감춰지지 않은 경멸을 가진 산림 엘프 스타일로 쓰는 데 필요한 뉘앙스와 미묘함이 부족할 가능성이 큽니다.

더욱 맞춤화된 결과를 얻기 위해 개발자는 앱의 사용 사례와 관련된 정보로 모델을 미세 조정할 수 있습니다.

LLM을 사용하여 게임 내 대화를 생성하는 앱을 개발하는 예를 들어보겠습니다. 미세 조정 프로세스는 게임에서 캐릭터가 말할 수 있는 내용에 대한 정보와 같은 사전 학습된 모델의 가중치를 사용하는 것으로 시작합니다. 대화를 적절한 스타일로 만들기 위해 개발자는 더 무섭거나 악당스러운 톤으로 작성된 대화와 같은 더 작은 데이터 세트에서 모델을 조정할 수 있습니다.

어떤 경우에는 개발자가 이러한 모든 미세 조정 프로세스를 동시에 실행하고 싶어할 수 있습니다. 예를 들어, 다양한 콘텐츠 채널에 대해 다른 목소리로 작성된 마케팅 카피를 생성하고 싶어할 수 있습니다. 동시에 문서를 요약하고 스타일에 대한 제안을 하고 싶을 수 있으며, 텍스트-이미지 생성기를 위한 비디오 게임 장면 설명과 이미지 프롬프트를 초안하고 싶어할 수도 있습니다.

여러 모델을 동시에 실행하는 것은 실용적이지 않습니다. 모든 모델이 동시에 GPU 메모리에 맞지 않기 때문입니다. 그렇더라도 추론 시간은 메모리 대역폭(데이터를 메모리에서 GPU로 얼마나 빨리 읽을 수 있는지)에 영향을 받습니다.

로(라)와 보라

이러한 문제를 해결하는 인기 있는 방법은 저순위 적응과 같은 미세 조정 기술을 사용하는 것입니다. 이를 생각하는 간단한 방법은 미세 조정 프로세스의 사용자 정의를 포함하는 패치 파일입니다.

일단 훈련되면, 사용자 정의 LoRA 어댑터는 추론 중에 기초 모델과 원활하게 통합되어 최소한의 오버헤드를 추가할 수 있습니다. 개발자는 어댑터를 단일 모델에 연결하여 여러 사용 사례를 제공할 수 있습니다. 이렇게 하면 메모리 풋프린트를 낮추는 동시에 각 특정 사용 사례에 필요한 추가 세부 정보를 제공합니다.

다중 LoRA 기능을 사용하여 단일 기반 모델로 여러 클라이언트 및 사용 사례를 지원하는 아키텍처 개요

실제로 이는 앱이 여러 LoRA 어댑터를 사용하여 많은 사용자 정의와 함께 기본 모델의 사본을 하나만 메모리에 보관할 수 있음을 의미합니다.

이 프로세스를 멀티-LoRA 서빙이라고 합니다. 모델에 여러 호출이 이루어지면 GPU는 모든 호출을 병렬로 처리하여 GPU의 사용을 극대화할 수 있습니다. 텐서 코어 메모리와 대역폭에 대한 수요를 최소화하여 개발자가 워크플로에서 AI 모델을 효율적으로 사용할 수 있도록 합니다. 다중 LoRA 어댑터를 사용하는 미세 조정된 모델은 최대 6배 더 빠르게 수행됩니다.

LoRA 어댑터가 런타임에 적용된 Llama 3B int4에 대한 GeForce RTX 4090 데스크톱 GPU의 LLM 추론 성능. 입력 시퀀스 길이는 43개 토큰이고 출력 시퀀스 길이는 100개 토큰입니다. LoRA 어댑터 최대 순위는 64입니다.

앞서 설명한 게임 내 대화 애플리케이션의 예에서 다중 LoRA 제공을 사용하여 앱의 범위를 확장하여 단일 프롬프트로 스토리 요소와 일러스트레이션을 모두 생성할 수 있습니다.

사용자는 기본적인 스토리 아이디어를 입력할 수 있고, LLM은 개념을 구체화하여 아이디어를 확장하여 자세한 기반을 제공합니다. 그런 다음 애플리케이션은 두 개의 고유한 LoRA 어댑터로 강화된 동일한 모델을 사용하여 스토리를 정제하고 해당 이미지를 생성할 수 있습니다. 한 LoRA 어댑터는 로컬에 배포된 Stable Diffusion XL 모델을 사용하여 비주얼을 만드는 Stable Diffusion 프롬프트를 생성합니다. 한편, 스토리 쓰기에 맞게 미세 조정된 다른 LoRA 어댑터는 잘 구성되고 매력적인 내러티브를 만들 수 있습니다.

이 경우 두 추론 패스에 동일한 모델을 사용하여 프로세스에 필요한 공간이 크게 증가하지 않도록 합니다. 텍스트와 이미지 생성을 모두 포함하는 두 번째 패스는 일괄 추론을 사용하여 수행되므로 NVIDIA GPU에서 프로세스가 매우 빠르고 효율적입니다. 이를 통해 사용자는 스토리의 여러 버전을 빠르게 반복하여 내러티브와 일러스트레이션을 쉽게 다듬을 수 있습니다.

이 프로세스는 최근의 문서에서 더 자세히 설명되어 있습니다. 기술 블로그.

LLM은 현대 AI의 가장 중요한 구성 요소 중 하나가 되고 있습니다. 채택과 통합이 증가함에 따라 애플리케이션별 사용자 지정이 가능한 강력하고 빠른 LLM에 대한 수요는 증가할 뿐입니다. 오늘 RTX AI 툴킷에 추가된 다중 LoRA 지원은 개발자에게 이러한 기능을 가속화하는 강력하고 새로운 방법을 제공합니다.

Share post:

Subscribe

Popular

More like this
Related

모듈식 모터 및 기어박스로 제품 개발이 간편해집니다.

후원자: 맥슨의 Parvalux.경쟁에서 승리하려면 엔지니어는 개발 시간을 단축하고 제품...

Draganfly, 병원 드론 배달 개념 증명 비행 완료

Draganfly는 Brigham 장군의 개념 증명을 통해 드론이 의료 분야의...

2024년 기후 기술 상위 10개 스토리

2024년에는 기후변화에 대처하는 기술 전기를 생산하는 연을 타고 구름...

Microsoft의 AI 생태계가 Salesforce 및 AWS를 능가하는 방법

AI 에이전트 일반적으로 사람의 개입이 필요한 작업을 수행하도록 설계된...