헤드 라인이 계속옵니다. Deepseek의 모델 벤치 마크에 도전하고, 새로운 표준을 설정하고, 많은 소음을 내고 있습니다. 그러나 AI 연구 장면에서도 흥미로운 일이 일어났습니다.
모든 ai 조용히 새 새로운 출시 싸움 3 모델 제품군과 405b 매개 변수 버전은 DeepSeek과 경쟁하는 것이 아니라 주요 벤치 마크에서 일치하거나 이길 수 있습니다.
이것을 원근법에 넣으십시오.
405B Tülu 3 모델은 Deepseek V3 다양한 작업에 걸쳐. 우리는 수학 문제, 코딩 문제 및 다음과 같은 정확한 지시와 같은 영역에서 비슷하거나 우수한 성능을보고 있습니다. 그리고 그들은 또한 완전히 열린 접근 방식으로 그것을하고 있습니다.
그들은 완전한 훈련 파이프 라인, 코드 및 심지어 검증 가능한 보상 (RLVR)과 함께 강화 학습이라는 새로운 강화 학습 방법을 발표했습니다.
지난 몇 주 동안 이와 같은 개발은 실제로 최상위 AI 개발이 어떻게 진행되고 있는지 변화하고 있습니다. 완전히 오픈 소스 모델 최고의 폐쇄 모델과 일치 할 수 있으며 이전에 개인 회사 벽 뒤에 잠긴 가능성을 열어줍니다.
기술 전투
Tülu 3이 눈에 띄게 만든 이유는 무엇입니까? 전통적인 접근 방식을 넘어서는 독특한 4 단계 교육 프로세스로 이어집니다.
Allen AI 가이 모델을 어떻게 구축했는지 살펴 보겠습니다.
1 단계 : 전략적 데이터 선택
팀은 모델 품질이 데이터 품질로 시작된다는 것을 알고있었습니다. 그들은 설립 된 데이터 세트를 결합했습니다 Wildchat 그리고 오픈 조수 맞춤형 컨텐츠로. 그러나 여기에 핵심 통찰력이 있습니다. 데이터를 집계 할뿐만 아니라 수학적 추론 및 코딩 능력과 같은 특정 기술을 위해 대상 데이터 세트를 만들었습니다.
2 단계 : 더 나은 응답 구축
두 번째 단계에서 Allen AI는 모델 특정 기술을 가르치는 데 중점을 두었습니다. 그들은 다양한 교육 데이터 세트 – 수학, 코딩을위한 것, 일반적인 작업을위한 것 등을 만들었습니다. 이러한 조합을 반복적으로 테스트함으로써 모델이 우수한 위치와 작업이 필요한 위치를 정확하게 볼 수있었습니다. 이 반복 과정은 Tülu 3이 각 영역에서 달성 할 수있는 것의 진정한 잠재력을 드러 냈습니다.
3 단계 : 비교로부터 배우기
이것은 Allen Ai가 창의적 인 곳입니다. 그들은 다른 최고 모델에 대한 Tülu 3의 응답을 즉시 비교할 수있는 시스템을 구축했습니다. 그러나 그들은 또한 AI에서 지속적인 문제를 해결했습니다 – 모델이 길이를 위해 긴 응답을 작성하는 경향이 있습니다. 그들의 접근, 사용 길이-정규화 된 직접 선호도 최적화 (DPO)모델은 수량보다 품질을 중요하게하는 법을 배웠다는 것을 의미했습니다. 결과? 정확하고 목적이있는 응답.
AI 모델이 선호도에서 배우면 (응답이 더 좋았는지, A 또는 B?), 그들은 실망스러운 편견을 개발하는 경향이 있습니다. 그들은 더 긴 반응이 항상 더 좋다고 생각하기 시작합니다. 그들은 말을 잘 말하는 것이 아니라 더 많은 말을함으로써이기려고하는 것과 같습니다.
길이-정규화 된 DPO는 모델이 환경 설정에서 학습하는 방식을 조정하여이를 수정합니다. 어떤 응답이 선호되는지 보는 대신 각 응답의 길이를 고려합니다. 그것의 총 영향뿐만 아니라 단어 당 품질에 의한 응답을 판단하는 것으로 생각하십시오.
이것이 왜 중요합니까? Tülu 3이 정확하고 효율적으로 배우는 데 도움이되기 때문입니다. 더 포괄적 인 것처럼 보이기 위해 추가 단어로 응답을 패딩하는 대신 실제로 필요한 길이로 가치를 전달하는 법을 배웁니다.
이것은 작은 세부 사항처럼 보일지 모르지만 자연스럽게 의사 소통하는 AI를 구축하는 것이 중요합니다. 최고의 인간 전문가는 간결해야 할시기와 정교화시기를 알고 있습니다. 이것이 바로 길이가 정규화 된 DPO가 모델을 가르치는 데 도움이되는 것입니다.
4 단계 : RLVR 혁신
이것은주의를 기울여야 할 기술적 혁신입니다. RLVR은 주관적인 보상 모델을 구체적인 검증으로 대체합니다.
대부분의 AI 모델은 복잡한 보상 모델 시스템을 통해 학습합니다. 그러나 Allen Ai는 RLVR과 다른 길을 갔다.
현재 AI 모델을 훈련시키는 방법에 대해 생각해보십시오. 응답이 양호한 지 판단하려면 일반적으로 다른 AI 모델 (보상 모델이라고 함)이 필요합니다. 주관적이고 복잡하며 종종 일관성이 없습니다. 일부 응답은 좋아 보일 수 있지만 미묘한 오류가 포함되어 있습니다.
RLVR은이 접근법을 머리에 뒤집습니다. 주관적인 판단에 의존하는 대신 구체적인 검증 가능한 결과를 사용합니다. 모델이 수학 문제를 시도하면 회색 영역이 없습니다. 대답은 옳고 그른 것입니다. 코드를 작성하면 해당 코드가 올바르게 실행되거나 그렇지 않습니다.
흥미로운 곳이 있습니다.
- 모델은 즉각적인 이진 피드백을 얻습니다 : 정답의 경우 10 점, 잘못된 것의 경우 0
- 부분 신용 또는 퍼지 평가를위한 여지가 없습니다.
- 학습은 집중되고 정확 해집니다
- 이 모델은 그럴듯한 소리이지만 잘못된 응답보다 정확성을 우선시하는 법을 배웁니다.
RLVR 교육 (Allen AI)
결과? Tülu 3은 정확성이 가장 중요한 작업에서 크게 개선되었습니다. 수학적 추론 (GSM8K 벤치 마크) 및 코딩 문제에 대한 성능이 눈에 띄게 증가했습니다. 모델이 대략적인 응답에 대한 콘크리트 정확도를 소중히 여기는 법을 배웠기 때문에 지시를 따르는조차도 더욱 정확 해졌습니다.
이것을 특히 흥미롭게 만드는 것은 오픈 소스 AI의 게임을 어떻게 변화 시키는가입니다. 이전 접근법은 종종 기술 작업에 대한 폐쇄 모델의 정밀도와 일치하는 데 어려움을 겪었습니다. RLVR은 올바른 교육 접근 방식을 통해 오픈 소스 모델이 동일한 수준의 신뢰성을 달성 할 수 있음을 보여줍니다.
숫자를보십시오
Tülu 3의 405b 매개 변수 버전은 현장의 최고 모델과 직접 경쟁합니다. 탁월한 위치와 이것이 오픈 소스 AI의 의미를 조사해 봅시다.
수학
Tülu 3은 복잡한 수학적 추론에 탁월합니다. GSM8K 및 Math와 같은 벤치 마크에서 DeepSeek의 성능과 일치합니다. 이 모델은 다단계 문제를 처리하고 강력한 수학적 추론 기능을 보여줍니다.
암호
코딩 결과는 똑같이 인상적입니다. RLVR 교육 덕분에 Tülu 3은 문제를 효과적으로 해결하는 코드를 작성합니다. 강점은 코딩 지침을 이해하고 기능적 솔루션을 생산하는 데 있습니다.
다음과 같은 정확한 지시
지침을 따르는 모델의 능력은 핵심 강점으로 두드러집니다. 많은 모델이 지침을 근사화하거나 일반화하지만 Tülu 3은 요구되는 것을 정확하게 실행하는 데있어 놀라운 정밀도를 보여줍니다.
AI 개발의 블랙 박스 열기
Allen AI는 강력한 모델과 완전한 개발 프로세스를 모두 출시했습니다.
교육 과정의 모든 측면은 문서화되고 액세스 할 수 있습니다. 4 단계 접근 방식에서 데이터 준비 방법 및 RLVR 구현-전체 프로세스는 연구 및 복제를 위해 열려 있습니다. 이 투명성은 고성능 AI 개발의 새로운 표준을 설정합니다.
개발자는 포괄적 인 리소스를받습니다.
- 완전한 훈련 파이프 라인
- 데이터 처리 도구
- 평가 프레임 워크
- 구현 사양
이를 통해 팀은 다음을 수행 할 수 있습니다.
- 교육 프로세스를 수정하십시오
- 특정 요구에 맞는 방법을 적응시킵니다
- 입증 된 접근 방식을 구축하십시오
- 특수 구현을 만듭니다
이 개방형 접근법은 분야의 혁신을 가속화합니다. 연구원들은 검증 된 방법을 구축 할 수 있지만 개발자는 0에서 시작하기보다는 개선에 중점을 둘 수 있습니다.
오픈 소스 우수성의 상승
Tülu 3의 성공은 열린 AI 개발의 큰 순간입니다. 언제 오픈 소스 모델은 개인 대안과 일치하거나 초과합니다그것은 기본적으로 산업을 변화시킵니다. 전 세계 연구팀은 입증 된 방법에 접근하여 작업을 가속화하고 새로운 혁신을 산란합니다. Private AI Labs는 투명성을 높이거나 기술적 경계를 더욱 발전시켜 적응해야합니다.
앞으로 Tülu 3의 획기적인 보상과 다단계 훈련은 다가오는 것에 대한 힌트를 얻었습니다. 팀은 이러한 기초를 구축하여 잠재적으로 성능을 높일 수 있습니다. 코드가 존재하고 방법이 문서화되며 새로운 AI 개발의 물결이 시작되었습니다. 개발자와 연구원의 경우 이러한 방법을 실험하고 개선 할 수있는 기회는 AI 개발에서 흥미로운 장의 시작을 의미합니다.
Tülu 3에 대한 자주 묻는 질문 (FAQ)
Tülu 3은 무엇이며 주요 기능은 무엇입니까?
Tülu 3은 Allen AI가 개발 한 오픈 소스 LLM 제품군으로 LLAMA 3.1 아키텍처를 기반으로합니다. 다양한 크기 (8b, 70b 및 405b 매개 변수)로 제공됩니다. Tülu 3은 지식, 추론, 수학, 코딩, 지시 다음 및 안전을 포함한 다양한 작업에서 성능 향상을 위해 설계되었습니다.
Tülu 3의 교육 프로세스는 무엇이며 어떤 데이터가 사용됩니까?
Tülu 3의 훈련에는 몇 가지 주요 단계가 포함됩니다. 먼저, 팀은 특정 기술을 대상으로 한 공개 데이터 세트와 합성 데이터의 다양한 프롬프트 세트를 관리하여 데이터가 벤치 마크에 대해 오염되도록합니다. 둘째, SFT (Supervised Finetuning)는 명령어 팔로우, 수학 및 코딩 데이터의 혼합으로 수행됩니다. 다음으로 DPO (Direct Preference Optimization)는 사람 및 LLM 피드백을 통해 생성 된 기본 설정 데이터와 함께 사용됩니다. 마지막으로, 검증 가능한 보상 (RLVR)을 사용한 강화 학습은 측정 가능한 정확성을 가진 작업에 사용됩니다. Tülu 3은 페르소나 구동 지침, 수학 및 코드 데이터를 포함하여 각 단계마다 선별 된 데이터 세트를 사용합니다.
Tülu 3은 안전에 어떻게 접근하며 어떤 메트릭이 사용되는지 평가하기 위해 어떤 메트릭이 사용됩니까?
안전은 교육 과정 전반에 걸쳐 Tülu 3의 개발의 핵심 구성 요소입니다. 안전 특정 데이터 세트는 SFT 동안 사용되며 다른 작업 지향 데이터와 크게 직교 인 것으로 밝혀졌습니다.
RLVR이란 무엇입니까?
RLVR은 모델이 답변의 정확성과 같이 검증 가능한 보상에 대해 최적화하도록 교육을받는 기술입니다. 이것은 보상 모델을 사용하는 기존 RLHF와 다릅니다.
게시물 Allen Ai의 Tülu 3은 방금 Deepseek의 예상치 못한 라이벌이되었습니다 먼저 나타났습니다 Unite.ai.