AI 추론 향상 : 고급 기술 및 모범 사례

ai-추론-향상-:-고급-기술-및-모범-사례
AI 추론 향상 : 고급 기술 및 모범 사례

자율 주행 차 또는 의료 모니터링입력을 처리하는 데 1 초 이상 더 심각한 결과를 초래할 수 있습니다. 실시간 AI 애플리케이션에는 신뢰할 수있는 GPU 및 처리 능력이 필요하며, 지금까지 많은 응용 프로그램에 대해 매우 비싸고 비용이 많이 듭니다.

최적화 추론 프로세스를 채택함으로써 비즈니스는 AI 효율을 극대화 할 수있을뿐만 아니라; 또한 에너지 소비 및 운영 비용 (최대 90%)을 줄일 수 있습니다. 개인 정보 보호 및 보안 향상; 고객 만족도를 향상시킵니다.

일반적인 추론 문제

AI 효율성을 관리 할 때 회사가 직면 한 가장 일반적인 문제 중 일부에는 활용되지 않은 GPU 클러스터, 범용 모델에 대한 기본값 및 관련 비용에 대한 통찰력 부족이 포함됩니다.

팀은 종종 피크 하중을위한 GPU 클러스터를 제공하지만 시간의 70 ~ 80 % 사이에서 고르지 않은 워크 플로로 인해 활용률이 낮습니다.

또한, 팀은 대규모 일반 목적 모델 (GPT-4, Claude)의 기본값을 기본으로 작고 저렴한 오픈 소스 모델에서 실행할 수있는 작업에도 불구하고 기본적으로 기본입니다. 이유? 지식 부족과 맞춤형 모델을 구축하는 가파른 학습 곡선.

마지막으로 엔지니어는 일반적으로 각 요청에 대한 실시간 비용에 대한 통찰력이 부족하여 청구서가 무거워집니다. Prestlayer, Helicone과 같은 도구는이 통찰력을 제공하는 데 도움이 될 수 있습니다.

모델 선택, 배치 및 활용에 대한 제어가 부족하여 추론 비용은 기하 급수적으로 (최대 10 배까지), 폐기물 자원, 정확성을 제한하며 사용자 경험을 줄일 수 있습니다.

에너지 소비 및 운영 비용

GPT-4, LLAMA 3 70B 또는 MIXTRAL-8X7B와 같은 더 큰 LLM을 실행합니다. 훨씬 더 많은 힘 토큰 당. 평균적으로 데이터 센터에서 사용하는 에너지의 40 ~ 50 %는 컴퓨팅 장비에 전원을 공급하며 장비를 냉각시키는 데 전념하는 30 ~ 40 %가 추가로 전용됩니다.

따라서, 규모의 추론을 위해 24 시간 내내 실행하는 회사의 경우, 프리미엄 비용을 지불하지 않고 클라우드 제공 업체가 아닌 온 프레시스 제공 업체를 고려하는 것이 더 유리합니다. 더 많은 에너지를 소비합니다.

개인 정보 및 보안

CISC에 따르면2025 데이터 개인 정보 벤치 마크 연구,,, 응답자의 64%는 우연히 민감한 정보를 공개적으로 또는 경쟁 업체와 공유하는 것에 대해 걱정하지만, 거의 절반은 개인 직원 또는 비공개 데이터를 Genai 도구에 입력하는 것을 인정합니다.” 데이터가 부적절하게 기록되거나 캐시 된 경우 비준수의 위험이 증가합니다.

위험의 또 다른 기회는 공유 인프라에서 다른 고객 조직에서 모델을 운영하는 것입니다. 이로 인해 데이터 유출 및 성능 문제가 발생할 수 있으며 한 사용자의 작업이 다른 사용자에게 영향을 줄 위험이 추가됩니다. 따라서 기업은 일반적으로 클라우드에 배치 된 서비스를 선호합니다.

고객 만족

응답이 나타나는 데 몇 초 이상이 걸리면 일반적으로 사용자는 제로 대기 시간을 과도하게 최적화하려는 엔지니어의 노력을 지원합니다. 또한 응용 프로그램이“광범위한 영향과 채택을 제한 할 수있는 환각 및 부정확성과 같은 장애물”이라고 말합니다. 가트너 보도 자료.

이러한 문제를 관리하는 비즈니스 이점

배치 최적화, 올바른 모델 선택 (예 : LLAMA 70B 또는 가능한 경우 GPT 및 Gemma 2B와 같은 LLAMA 70B 또는 폐쇄 소스 모델을 전환 함) 및 GPU 사용을 개선하면 추론 청구서가 60 ~ 80 % 줄일 수 있습니다. vllm과 같은 도구를 사용하면 스파이 같은 워크 플로우를 위해 서버리스 지불 지불 모델로 전환 할 수 있습니다.

예를 들어 정화 작업을 수행하십시오. 청정 시작했다 신뢰할 수있는 언어 모델 (TLM) 에게 추가하다 모든 LLM 응답에 대한 신뢰 점수. 고품질의 출력 및 향상된 신뢰성을 위해 설계되었으며, 이는 기업 애플리케이션에 중요하지 않은 환각을 방지합니다. 불안하기 전에 클리닝 랩은 GPU가 적극적으로 사용되지 않았을 때에도 실행되면서 GPU 비용이 증가했습니다. 이들의 문제는 기존 클라우드 GPU 제공 업체의 경우 전형적이었습니다. 높은 대기 시간, 비효율적 인 비용 관리 및 관리하기위한 복잡한 환경. 서버리스 추론으로 성능 수준을 유지하면서 비용을 90 % 줄였습니다. 더 중요한 것은 추가 엔지니어링 오버 헤드 비용없이 2 주 이내에 살았습니다.

모델 아키텍처 최적화

GPT 및 Claude와 같은 기초 모델은 종종 효율성이나 특정 작업이 아니라 일반성에 대해 교육을받습니다. 특정 사용 사례에 대한 오픈 소스 모델을 사용자 정의하지 않으면 비즈니스는 메모리를 낭비하고 해당 규모가 필요하지 않은 작업에 대한 시간을 계산합니다.

H100과 같은 새로운 GPU 칩은 빠르고 효율적입니다. 비디오 생성 또는 AI 관련 작업과 같은 대규모 작업을 실행할 때 특히 중요합니다. 더 많은 CUDA 코어는 처리 속도를 증가시켜 더 작은 GPU를 능가합니다. Nvidia ‘s 텐서 코어 이러한 작업을 규모로 가속화하도록 설계되었습니다.

대형 AI 모델에는 상당한 공간이 필요하기 때문에 GPU 메모리는 모델 아키텍처를 최적화하는 데 중요합니다. 이 추가 메모리를 통해 GPU는 속도를 손상시키지 않고 더 큰 모델을 실행할 수 있습니다. 반대로, VRAM이 적은 소규모 GPU의 성능은 데이터를 느린 시스템 RAM으로 이동함에 따라 어려움을 겪습니다.

모델 아키텍처 최적화의 몇 가지 이점에는 시간과 돈 절약이 포함됩니다. 먼저, 밀집된 변압기에서 LORA- 최적화 또는 FlashAttention 기반 변형으로 전환하면 쿼리 당 200 ~ 400 밀리 초의 응답 시간 이하로 챗봇과 게임에 중요합니다. 또한 양자화 된 모델 (예 : 4 비트 또는 8 비트)은 더 덜 VRAM을 필요로하고 저렴한 GPU에서 더 빠르게 실행됩니다.

최적화 된 모델은 소규모 칩에서 실행될 수 있으므로 장기적으로 최적화 모델 아키텍처는 추론 비용을 절약합니다.

모델 아키텍처 최적화는 다음 단계가 필요합니다.

  • 양자화 – 정밀도 감소 (fp32 → int4/int8), 메모리 저장 및 계산 시간 속도
  • 전정 – 덜 유용한 가중치 또는 층 제거 (구조적 또는 구조화되지 않은)
  • 증류 – 더 큰 “학생”모델을 더 큰 모델의 출력을 모방하기 위해 훈련

압축 모델 크기

더 작은 모델 더 빠른 추론과 저렴한 인프라를 의미합니다. 대형 모델 (13b+, 70b+)은 고가의 GPU (A100, H100), 높은 VRAM 및 더 많은 전력이 필요합니다. 압축하면 대기 시간이 훨씬 낮아서 A10 또는 T4와 같은 저렴한 하드웨어에서 실행할 수 있습니다.

압축 모델은 또한 소규모 모델로 인프라를 확장하지 않고 동시 요청의 서비스를 제공 할 수 있으므로 온거비 (전화, 브라우저, IoT) 추론에도 중요합니다. 1,000 명 이상의 동시 사용자가있는 챗봇에서 13B에서 7B 압축 모델로 이동하면 한 팀이 대기 시간 스파이크없이 GPU 당 사용자의 양 이상을 2 배 이상 제공 할 수있었습니다.

특수 하드웨어 활용

범용 CPU는 텐서 작업을 위해 구축되지 않았습니다. NVIDIA A100, H100, Google TPU 또는 AWS 추론과 같은 특수 하드웨어는 더 나은 에너지 효율로 LLM에 더 빠른 추론 (10 ~ 100x)을 제공 할 수 있습니다. 요청 당 100 밀리 초 정도를 면도하면 매일 수백만 건의 요청을 처리 할 때 차이가 생길 수 있습니다.

이 가상의 예를 고려하십시오.

팀은 내부 걸레 시스템을 위해 표준 A10 GPU에서 LLAMA-13B를 운영하고 있습니다. 대기 시간은 약 1.9 초이며 VRAM 제한으로 인해 많은 배치를 할 수 없습니다. 따라서 Tensorrt-LLM으로 H100으로 전환하고 FP8을 활성화하고 최적화 된주의 커널을 최적화하고 배치 크기를 8에서 64로 증가시킵니다. 결과는 5 회 처리량을 증가시켜 대기 시간을 400 밀리 초로 줄입니다.
결과적으로, 그들은 같은 예산으로 5 번의 요청을 제공하고 엔지니어가 인프라 병목 현상을 탐색하는 것을 자유롭게 할 수 있습니다.

배포 옵션 평가

다른 프로세스마다 다른 인프라가 필요합니다. 10 명의 사용자가있는 챗봇과 하루에 백만 쿼리를 제공하는 검색 엔진의 요구는 다릅니다. 비용 성능 비율을 평가하지 않고 클라우드 (예 : AWS SAGEMAKER) 또는 DIY GPU 서버에서 올인으로 이동하면 지출 낭비와 사용자 경험이 열악합니다. 폐쇄 클라우드 제공 업체에 일찍 커밋하면 나중에 솔루션을 마이그레이션하는 것은 고통 스럽습니다. 그러나 지불 지불 구조로 조기에 평가하면 도로로 옵션이 제공됩니다.

평가는 다음 단계를 포함합니다.

  • 벤치 마크 모델 대기 시간 및 플랫폼 간 비용 : AWS, Azure, 로컬 GPU 클러스터 또는 서버리스 도구에서 A/B 테스트를 실행하여 복제합니다.
  • 콜드 스타트 ​​성능 측정 : 모델이 더 빠르게로드되기 때문에 서버리스 또는 이벤트 중심 워크로드에 특히 중요합니다.
  • 관찰 가능성 및 스케일링 한도 평가 : 사용 가능한 메트릭을 평가하고 저하 전에 초당 최대 쿼리가 무엇인지 식별하십시오.
  • 준수 지원 확인 : 지리적 데이터 규칙 또는 감사 로그를 시행 할 수 있는지 여부를 결정하십시오.
  • 총 소유 비용을 추정합니다. 여기에는 GPU 시간, 스토리지, 대역폭 및 팀의 오버 헤드가 포함되어야합니다.

결론

추론을 통해 비즈니스는 AI 성능을 최적화하고 에너지 사용 및 비용을 낮추고 개인 정보 및 보안을 유지하며 고객을 행복하게 유지할 수 있습니다.

게시물 AI 추론 향상 : 고급 기술 및 모범 사례 먼저 나타났습니다 Unite.ai.