반성 70B: 자기 교정 인지 및 선도적 성과를 갖춘 LLM

aayush mittal

10개월 ago

반사 70B는 오픈소스 대규모 언어 모델(LLM)이 개발됨 하이퍼라이트. 이 새로운 모델은 언어 처리부터 고급 문제 해결에 이르기까지 다양한 분야에서 AI 시스템과 상호 작용하고 이를 신뢰하는 방식을 바꿀 수 있는 AI 인지에 대한 접근 방식을 소개합니다.

레버리지 반사 튜닝모델이 실시간으로 자체 실수를 자체 평가하고 수정할 수 있는 획기적인 기술인 Reflection 70B는 독점 모델을 능가하여 빠르게 정상에 올랐습니다. GPT-4 그리고 클로드 3.5 소네트 다음을 포함한 여러 벤치마크에서 한국어:, 수학그리고 인간평가.

Reflection 70B는 견고한 화염 3.1-70B 아키텍처이지만 자체 정제 메커니즘이 차별화됩니다. 반복적인 반성, 오류 감지 및 출력 정제 주기를 통해 이 모델은 전례 없는 방식으로 인간의 인지를 모방하여 AI가 달성할 수 있는 경계를 넓힙니다. 결과적으로 Reflection 70B는 타의 추종을 불허하는 정확성뿐만 아니라 의사 결정 프로세스에 대한 더 깊은 통찰력을 제공하며, 이는 투명성과 정밀성이 가장 중요한 애플리케이션에 중요한 기능입니다.

Reflection 70B란 무엇인가

Reflection 70B의 핵심은 다음과 같습니다. 메타의 오픈소스 화염 3.1-70B 모델 지시하기. 그러나 진정으로 그것을 차별화하는 것은 인간의 반성과 유사한 과정에 참여할 수 있는 독특한 능력입니다. 따라서 그 이름이 붙었습니다. 이 능력은 “반사 튜닝“를 통해 모델은 실시간으로 오류를 식별하고 수정할 수 있으므로 정확도와 안정성이 향상됩니다.

맷 슈머HyperWrite의 CEO인 그는 Reflection 70B를 “세계 최고의 오픈소스 AI 모델.”하지만 이 모델을 그렇게 특별하게 만드는 것은 정확히 무엇이며 GPT-4와 같은 업계 거물과 비교해 어떻게 평가됩니까? 클로드 3.5 소네트? 탐험해 볼까요.

선택적 반사 튜닝 이해: AI 훈련의 패러다임 전환

선택적 반사 튜닝 접근 방식을 소개합니다 지시 튜닝목표는 두 가지 모두를 개선하는 것입니다. 지시 데이터의 품질 및 호환성 학생 모델 미세 조정됨. 전통적인 방법은 종종 데이터 자체를 개선하는 데 중점을 두지만 향상된 데이터 쌍이 모델의 학습 목표와 얼마나 잘 일치하는지 간과합니다. 선택적 반성 조정은 이러한 격차를 메웁니다. 교사-학생 협업여기서 교사 모델 데이터를 내성하고 정교한 지시-응답 쌍을 제공하는 동시에 학생 모델 교육 요구 사항에 가장 적합한 개선 사항만 평가하고 선택합니다.

이 과정은 두 가지 핵심 단계로 구성됩니다.

선택형 교육 반성: 교사 모델은 주어진 샘플의 지시를 반영하고 정제된 지시-응답 쌍을 생성합니다. 그런 다음 학생 모델은 이 새로운 지시가 유익한지 여부를 측정 기준에 따라 평가합니다. 난이도에 따른 지시 (IFD)IFD 점수는 학생 모델에 대한 샘플의 난이도를 평가하여 모델에 적합한 도전이 되는 데이터만 보존되도록 보장합니다.
선택적 반응 반사: 이 단계에서 교사 모델은 첫 번째 단계에서 생성된 응답을 반영합니다. 학생 모델은 다음을 사용하여 이러한 응답을 평가합니다. 난이도에 따른 역방향 지시(r-IFD)학생이 응답에 따라 지시를 추론하는 것이 얼마나 실현 가능한지를 측정하는 지표입니다. 이를 통해 응답이 모델의 추론을 개선할 뿐만 아니라 학생의 기존 지식과도 잘 일치합니다.

두 가지 모두 적용하여 IFD 그리고 r-IFD선택적 반사 튜닝은 까다롭지만 실행할 수 있는추가 데이터 세트가 필요 없이 명령어 튜닝 프로세스를 개선합니다. 그 결과는 더 샘플 효율성 그리고 고성능 여러 대형 모델보다 성능이 뛰어난 LLM입니다.

생각의 건축: Reflection 70B가 “생각하는” 방식

Reflection 70B의 기본 아키텍처는 사고 과정을 여러 단계로 나누어 AI 추론을 새로운 수준으로 끌어올립니다. 각 단계에서 모델은 인간의 인지와 매우 유사하게 자기 반성을 통해 반복적으로 개선할 수 있습니다.

초기 데이터 및 응답: 모델은 주어진 지시에 대한 응답을 생성하는 것으로 시작합니다. 이 초기 출력은 표준 LLM 출력과 유사합니다.
선택형 교육 반성: 초기 응답을 생성한 후 모델은 다음 단계로 진입합니다. 지시 반성 단계. 교사 모델은 원래의 지시를 반영하고 개선 사항을 제안합니다. 그런 다음 이러한 제안은 학생 모델에서 다음을 사용하여 평가합니다. IFD 점수 새로운 명령어-응답 쌍이 추가 조정에 더 적합한지 확인합니다.
선택적 반응 반사: 지시에 대한 반성에 따라 모델은 응답 자체를 정제하기 위해 이동합니다. 여기서 교사 모델은 업데이트된 지시에 따라 새로운 응답을 생성합니다. 학생 모델은 다음을 사용합니다. r-IFD 점수새로운 반응이 지침을 보다 효율적으로 추론하는 데 도움이 되는지 평가합니다.
최종 지침 튜닝: 최상의 지시-응답 쌍이 선택되면 모델을 미세 조정하는 데 사용되는 최종 데이터 세트에 추가됩니다. 이 다단계 프로세스는 가장 효과적이고 일관된 지시-응답 쌍만 미세 조정 데이터에 포함되도록 보장합니다.

이것 구조화된 반성 이 프로세스를 통해 사용자는 모델이 사고 과정을 어떻게 반복하는지 볼 수 있으며, 이를 통해 투명성이 확보되고 복잡한 작업의 정확성과 일관성이 크게 향상됩니다.

벤치마킹 브릴리언스: Reflection 70B in Action

Reflection 70B의 Selective Reflection-Tuning 사용은 보다 정교한 학습 프로세스를 제공할 뿐만 아니라 여러 벤치마크에서 업계를 선도하는 성능을 달성합니다. 반복적 자체 평가 메커니즘을 통해 이 모델은 크기가 상당히 큰 독점 모델보다 성능이 뛰어납니다.

MMLU(대규모 멀티태스크 언어 이해): Reflection 70B는 인상적인 점수를 받았습니다. 72.2%LLaMA 2와 같은 다른 대규모 오픈소스 모델보다 성능이 우수합니다.
수학 벤치마크: 수학적 추론 과제에서 이 모델은 GPT-4와 Claude 3.5를 상당한 차이로 앞지르며 복잡한 문제 해결 시나리오를 처리하는 데 있어 강점을 보였습니다.
IFEval 및 GSM8K: Reflection 70B도 우수함 IFEval그것이 어디에 지시-응답 일관성 평가되었으며, GSM8K수학적 문제 해결 벤치마크. 자체 반성적 튜닝을 통해 이 모델은 더 큰 경쟁자보다 복잡하고 미묘한 문제를 더 효과적으로 처리할 수 있었습니다.

선택적 반사 튜닝을 활용하여 Reflection 70B는 다음을 입증했습니다. 크기가 유일한 요소는 아니다 높은 성과를 달성하는 데 있어서. 자기 자신을 바로잡고 반성하다 그 출력은 다음과 같은 결과를 가져왔습니다. 더 강력하고 더 일관된 추론이를 통해 더 많은 매개변수를 사용하는 모델을 능가할 수 있게 되었습니다.

sRecycled WizardLM 7B 대 다른 모델 성능 비교

실제 세계 응용 프로그램: Reflection 70B의 잠재력 활용

Reflection 70B의 실시간 오류 수정 및 투명한 의사 결정은 다양한 분야에서 새로운 문을 열어줍니다. 다음은 몇 가지 실제 사용 사례입니다.

복잡한 문제 해결

Reflection 70B의 강점은 복잡한 문제를 다루는 데 있습니다. 도전적인 수학 문제를 생각해 보세요.

User: "Solve the equation: 2x^2 + 5x - 3 = 0"Reflection 70B: Applying the quadratic formula... A correction in calculation... The solutions are x = 1/2 and x = -3.

문화적 감수성을 갖춘 언어 번역

일반적인 번역 모델과 달리 Reflection 70B는 언어 번역을 문화적 맥락에 맞게 조정합니다.

User: "Translate 'It's raining cats and dogs' to French, considering cultural context."Reflection 70B:thinking :The literal translation would be "Il pleut des chats et des chiens"...thinking;reflection: A culturally appropriate translation would be "Il pleut des cordes."reflection;output: Translation provided.

코드 디버깅 및 최적화 강화

Reflection 70B의 오류 수정 기능은 코드 디버깅 및 최적화에 이상적입니다.

User: "Debug this Python code..."Reflection 70B:  Analyzing step by step... Identified infinite recursion. Corrected code version with proper recursion.

70B 모델의 경쟁 환경 확대

Reflection 70B가 파장을 일으키고 있지만, 그것은 700억 개의 매개변수 모델로 이루어진 더 광범위한 생태계의 일부입니다. 다른 모델과 비교하면 다음과 같습니다.

메타의 라마 3.1-70B: 일반적인 용도에 적합한 강력한 기반 모델로 알려져 있습니다.
클로드 2 70B (인류학적): 윤리적인 AI 중심이며 추론과 장문 콘텐츠 생성에 능숙합니다.
GPT-3.5 70B(오픈AI): GPT-4의 가벼운 버전으로 성능과 효율성의 균형이 뛰어납니다.
블룸 70B: 자연어와 프로그래밍 언어를 훈련받은 다국어 강자입니다.
팔콘 70B: 훈련 및 추론 효율성으로 유명합니다.

70B 모델을 효율적으로 실행하기: 최신 기술

이 크기의 모델을 효율적으로 실행하는 것은 결코 간단한 일이 아닙니다. 성능을 극대화하기 위한 최신 전략은 다음과 같습니다.

1. 양자화

모델 가중치 정확도를 낮추면 메모리 사용량과 추론 시간이 단축됩니다. 4비트 양자화 기술을 사용하여 비트앤바이트 Reflection 70B가 더 작은 GPU에서 효율적으로 실행될 수 있도록 합니다.

예:

from transformers import AutoModelForCausalLMmodel = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-70b-hf", load_in_4bit=True)

2. 모델 샤딩

여러 GPU에 걸쳐 모델 분할(예: 사용) 딥스피드 제로)을 사용하면 GPU 메모리를 초과하지 않고도 더 큰 모델을 처리할 수 있습니다.

from xformers.ops import memory_efficient_attentionmodel.attention = memory_efficient_attention

3. 혼합된 정밀도와 효율적인 주의

플래시어텐션 그리고 엑스포머스 주의 오버헤드를 줄이고 대량 입력 시퀀스에 대한 처리 시간을 개선합니다.

from xformers.ops import memory_efficient_attentionmodel.attention = memory_efficient_attention

4. CPU 오프로딩 및 정리

CPU 오프로딩 덜 중요한 가중치를 제거하면 성능을 유지하면서도 보다 적당한 하드웨어에서 모델을 실행하는 데 도움이 됩니다.

from accelerate import cpu_offloadmodel = cpu_offload(model)

미래를 바라보며: 반성을 통한 미래 405B

HyperWrite의 다음 전선은 개발입니다. 반사 405BReflection 70B를 규모와 성능 면에서 모두 능가할 것으로 기대되는 모델입니다. 이 모델은 오픈소스 AI의 경계를 넓히고 GPT-5와 같은 가장 진보된 독점 모델에도 도전할 수 있는 위치를 차지합니다.

결론

을 통해 반사 튜닝Reflection 70B는 주요 벤치마크에서 업계를 선도하는 성과를 달성했으며, 오픈소스 AI에서 보기 드문 수준의 투명성과 정확성을 유지했습니다. 자체 수정 능력은 특히 코딩, 언어 번역, 복잡한 문제 해결과 같이 높은 수준의 정밀도가 필요한 분야에서 뚜렷한 이점을 제공합니다.

게시물 반성 70B: 자기 교정 인지 및 선도적 성과를 갖춘 LLM 처음 등장 유나이트.AI.