NVIDIA의 AI Masters가 KDD Cup 2024 데이터 과학 경연 대회에서 1위를 차지했습니다.

Date:

Team NVIDIA가 Amazon에서 승리했습니다. KDD 컵 2024금요일에는 5개 경쟁 트랙에서 모두 1위를 차지했습니다.

NVIDIANs로 구성된 팀 아메트 에르뎀, 베네딕트 시퍼러, 크리스 데오트, 길베르토 티테리츠, 이반 소로킨 그리고 사이먼 제구 — 텍스트 생성, 객관식 문제, 이름 엔터티 인식, 순위 지정 및 검색을 포함한 부문에서 우승하여 생성형 AI 분야에서 뛰어난 역량을 입증했습니다.

이 대회는 “라는 주제로 진행되었습니다.LLM을 위한 멀티태스크 온라인 쇼핑 챌린지”에서는 참가자들에게 제한된 데이터 세트를 사용하여 다양한 과제를 해결하도록 요청했습니다.

NVIDIA의 수석 데이터 과학자인 Deotte는 “LLM 경연 대회의 새로운 추세는 훈련 데이터를 제공하지 않는다는 것입니다.”라고 말했습니다. “96개의 예제 문제를 제공하는데, 이는 모델을 훈련하기에 충분하지 않습니다. 그래서 우리는 스스로 500,000개의 문제를 생각해냈습니다.”

Deotte는 NVIDIA 팀이 스스로 몇 가지 질문을 작성하여 다양한 질문을 생성했다고 설명했습니다. 대규모 언어 모델 다른 것을 만들고, 기존 전자상거래 데이터 세트를 변환합니다.

그는 “질문이 생기면 기존 프레임워크를 사용하여 언어 모델을 미세 조정하는 것이 간단했습니다.”라고 말했습니다.

대회 주최측은 참가자가 이전에 알려진 답을 악용하지 못하도록 시험 문제를 숨겼습니다. 이 접근 방식은 전자상거래에 대한 모든 질문에 잘 일반화되는 모델을 장려하여 모델이 실제 시나리오를 효과적으로 처리할 수 있는 역량을 증명합니다.

이러한 제약에도 불구하고 Team NVIDIA의 혁신적인 접근 방식은 720억 개의 매개변수를 포함하고 8개의 NVIDIA A100 Tensor Core GPU에서 미세 조정된 새로 출시된 LLM인 Qwen2-72B를 사용하고 데이터 세트를 사용하여 모델을 미세 조정하는 기술인 QLoRA를 채택함으로써 모든 경쟁자보다 우수한 성과를 거두었습니다.

KDD컵 2024에 대하여

ACM SIGKDD(Association for Computing Machinery’s Special Interest Group on Knowledge Discovery and Data Mining)가 주관하는 KDD 컵은 해당 분야의 연구 개발을 장려하기 위해 매년 열리는 권위 있는 대회입니다.

Amazon이 주최한 올해의 챌린지는 대규모 언어 모델을 사용하여 온라인 쇼핑의 복잡성을 모방하는 데 중점을 두었으며, 이를 통해 더 직관적이고 만족스러운 경험을 제공하는 것이 목표였습니다. 주최측은 실제 Amazon 쇼핑 데이터에서 파생된 57개 과제와 약 20,000개의 질문이 있는 온라인 쇼핑의 대규모 챌린지를 재현하는 벤치마크인 테스트 데이터 세트 ShopBench를 사용하여 참가자의 모델을 평가했습니다.

ShopBench 벤치마크는 다섯 번째 “올인원” 과제와 함께 네 가지 핵심 쇼핑 기술에 초점을 맞췄습니다.

  1. 쇼핑 컨셉트 이해: 복잡한 쇼핑 컨셉트와 용어 ​​해석.
  2. 쇼핑 지식 추론: 쇼핑 지식을 바탕으로 정보에 입각한 결정을 내립니다.
  3. 사용자 행동 정렬: 역동적인 고객 행동을 이해합니다.
  4. 다국어 능력: ​​다양한 언어로 쇼핑하기.
  5. 종합적: 이전 트랙의 모든 과제를 통합 솔루션으로 해결합니다.

NVIDIA의 승리 솔루션

NVIDIA의 우승 솔루션은 각 트랙마다 단일 모델을 만드는 것이었습니다.

이 팀은 방금 출시된 Qwen2-72B 모델을 약 24시간 동안 8개의 NVIDIA A100 Tensor Core GPU를 사용하여 미세 조정했습니다. GPU는 빠르고 효율적인 처리를 제공하여 미세 조정에 필요한 시간을 크게 줄였습니다.

먼저, 팀은 제공된 예제를 기반으로 훈련 데이터 세트를 생성하고 Llama 3 70B에 호스팅된 추가 데이터를 합성했습니다. 빌드.엔비디아.com.

다음으로, 그들은 1단계에서 생성된 데이터를 사용하는 훈련 프로세스인 QLoRA(Quantized Low-Rank Adaptation)를 채택했습니다. QLoRA는 모델 가중치의 더 작은 하위 집합을 수정하여 효율적인 훈련과 미세 조정을 가능하게 합니다.

그런 다음 이 모델을 양자화하여 더 작은 하드 드라이브와 적은 메모리를 갖춘 시스템에서 실행할 수 있도록 크기를 줄였습니다. AWQ 4비트를 사용하고 vLLM 추론 라이브러리를 사용하여 시간 제약 조건 내에서 4개의 NVIDIA T4 Tensor Core GPU에서 테스트 데이터 세트를 예측했습니다.

이러한 접근 방식 덕분에 각 개별 트랙에서 1위를 차지했고, 경쟁에서 전체 1위를 차지하며 NVIDIA가 2년 연속으로 완벽한 승리를 거두었습니다.

해당 팀은 다음 달에 솔루션에 대한 자세한 논문을 제출하고, 바르셀로나에서 열리는 KDD 2024에서 연구 결과를 발표할 계획입니다.

Share post:

Subscribe

Popular

More like this
Related

Waste Robotics와 Greyparrot가 분류 로봇을 강화하는 방법

Waste Robotics는 FANUC 로봇 팔을 사용하여 안정적이고 정확한 피킹을...

2024년 상위 10가지 생물의학 이야기

2024년에는 생체 의학 기술이 실제로 우리 머리, 더 구체적으로...

Sora AI 리뷰: AI가 영상 제작자를 영원히 대체할 수 있을까요?

말로만 고품질 비디오를 만들고 싶었던 적이 있습니까?2024년 2월 OpenAI...

Matternet, 드론 배송 확대를 위해 ANRA의 UTM 기술 추가

Matternet의 M2 드론은 도시 및 교외 지역에서 최대 20km(12.4마일)...