그룹화된 쿼리 주의(GQA)
Llama 3.1은 이전 응답에서 완전히 다루지 않은 중요한 최적화 기술인 Grouped Query Attention을 활용합니다. 이를 더 자세히 살펴보겠습니다.
그룹화된 쿼리 어텐션(GQA)은 추론 중 계산 비용과 메모리 사용량을 줄이는 것을 목표로 하는 멀티헤드 어텐션의 변형으로, 특히 긴 시퀀스의 경우에 그렇습니다. Llama 3.1 405B 모델에서 GQA는 8개의 키-값 헤드로 구현됩니다.
GQA의 작동 방식은 다음과 같습니다.
- 각 어텐션 헤드에 대해 별도의 키 및 값 프로젝션을 갖는 대신, GQA는 여러 개의 쿼리 헤드를 그룹화하여 동일한 키 및 값 헤드를 공유합니다.
- 이러한 그룹화를 통해 주요 및 값 예측의 매개변수 수가 크게 줄어들어 모델 크기가 작아지고 추론 속도가 빨라집니다.
- 주의 계산은 다음과 같이 표현될 수 있습니다.
Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V
Q가 g개의 그룹으로 그룹화되고, K와 V는 Q보다 머리가 적습니다.
Llama 3.1 405B의 GQA 이점은 다음과 같습니다.
- 메모리 사용량 감소: 키와 값 투영이 적으면 모델 매개변수를 저장하는 데 필요한 메모리도 줄어듭니다.
- 더 빠른 추론: 키 및 값 예측에 필요한 계산이 줄어들어 추론 속도가 향상됩니다.
- 유지된 성능: 매개변수가 감소했음에도 불구하고 GQA는 많은 작업에서 표준 멀티헤드 어텐션과 비슷한 성능을 유지하는 것으로 나타났습니다.
확장된 컨텍스트를 위한 2단계 사전 훈련
이 기사에서는 128K 토큰 컨텍스트 윈도우를 달성하기 위한 2단계 사전 학습 프로세스를 언급합니다. 이는 Llama 3.1 405B의 기능의 중요한 측면입니다.
1단계: 8K 토큰에 대한 초기 사전 훈련
- 모델은 최대 8,000개의 토큰 시퀀스를 통해 먼저 훈련됩니다.
- 이 단계에서는 모델이 일반적인 언어 이해 및 생성 기능을 학습할 수 있습니다.
2단계: 컨텍스트 확장을 위한 지속적인 사전 훈련
- 초기 훈련 후, 모델은 컨텍스트 길이를 128,000 토큰으로 늘리기 위해 지속적인 사전 훈련을 거칩니다.
- 이 단계에서는 모델이 짧은 맥락을 처리하는 능력을 잃지 않으면서도 긴 시퀀스로 일반화할 수 있도록 돕기 위해 신중하게 설계된 훈련 체계가 필요합니다.
멀티모달 기능
이전 응답에서는 멀티모달 기능에 대해 언급했지만 Llama 3.1 405B가 이를 구현하는 방법에 대해 자세히 설명할 수 있습니다.
구성적 접근 방식:
- 라마 3.1 405B는 다양한 모달리티(예: 이미지, 음성)에 대해 별도의 인코더를 사용합니다.
- 이러한 인코더는 다양한 양식의 입력을 언어 모델이 이해할 수 있는 공유 임베딩 공간으로 변환합니다.
언어 모델과의 통합:
- 이러한 특수 인코더의 출력은 주요 언어 모델에 입력됩니다.
- 이를 통해 Llama 3.1 405B는 여러 유형의 데이터를 동시에 처리하고 이해하여 여러 모달리티를 포함하는 작업을 수행할 수 있습니다.
교차 주의 메커니즘:
- 다양한 모달리티의 통합을 처리하기 위해 Llama 3.1 405B는 교차 주의 메커니즘을 사용할 가능성이 높습니다.
- 이러한 메커니즘을 통해 모델은 텍스트를 생성하거나 다른 작업을 수행할 때 다양한 모드에서 관련 정보를 처리할 수 있습니다.
Llama 3.1 405B의 멀티모달 기능은 다음과 같은 광범위한 응용 프로그램을 열어줍니다.
- 이미지 캡션 및 시각적 질문 답변
- 문맥적 이해를 통한 음성-텍스트 변환
- 텍스트, 이미지 및 잠재적으로 다른 데이터 유형을 결합하는 다중 모달 추론 작업
교육 세부 정보
- 이상 훈련됨 15조 토큰
- 맞춤형 GPU 클러스터 39.3M GPU 시간 405B 모델용
- 다국어 기능을 위한 다양한 데이터세트 큐레이션
지침에 맞춰 조정된 버전은 추가 교육을 받았습니다.
- 공개적으로 사용 가능한 지침 데이터 세트에 대한 미세 조정
- 위에 2500만 합성적으로 생성된 예
- 감독된 미세 조정 (SFT) 및 인간 피드백을 통한 강화 학습 (RLHF)
성능 벤치마크
이 표에서는 Llama 3.1 405B, Nemotron 4 340B Instruct, GPT-4(0125), GPT-4 Omni, Claude 3.5 Sonnet을 비교합니다. 주요 벤치마크에는 MMLU 및 IFEval과 같은 일반 작업, HumanEval 및 GSM8K와 같은 코드 작업, ARC Challenge와 같은 추론 작업이 포함됩니다. 각 벤치마크 점수는 인간과 유사한 텍스트를 이해하고 생성하고, 복잡한 문제를 해결하고, 코드를 실행하는 모델의 역량을 반영합니다. 특히 Llama 3.1 405B와 Claude 3.5 Sonnet은 여러 벤치마크에서 뛰어난 성과를 보이며 일반 작업과 도메인별 작업 모두에서 고급 역량을 보여줍니다.
향후 방향
Llama 3.1-405B의 출시는 여러 분야에서 혁신을 가속화할 가능성이 높습니다.
- 전문 도메인을 위한 개선된 미세 조정 기술
- 더욱 효율적인 추론 방법 개발
- 모델 압축 및 증류의 발전
결론
라마 3.1-405B는 오픈 소스 AI의 중요한 이정표를 나타내며, 이전에는 폐쇄형 소스 모델에서만 제공되었던 기능을 제공합니다.
이 모델의 힘을 계속 탐구함에 따라 책임감과 윤리적 고려를 가지고 사용에 접근하는 것이 중요합니다. 이 모델과 함께 제공되는 도구와 보호 장치는 책임감 있는 배포를 위한 프레임워크를 제공하지만, 지속적인 경계와 커뮤니티 협력이 이 강력한 기술이 사회의 이익을 위해 사용되도록 하는 데 중요할 것입니다.