최근 몇 년 동안 LLM (Lange Language Model)은 인공 지능 분야 (AI)를 크게 재정의하여 기계가 놀라운 능력으로 인간과 같은 텍스트를 이해하고 생성 할 수있게 해줍니다. 이 성공은 주로 딥 러닝 및 강화 학습 (RL)을 포함한 기계 학습 방법론의 발전에 기인합니다. 감독 된 학습은 LLM을 훈련시키는 데 중요한 역할을했지만 강화 학습은 단순한 패턴 인식을 넘어 능력을 개선하고 향상시키는 강력한 도구로 등장했습니다.
강화 학습을 통해 LLM은 경험을 통해 배우고 보상이나 처벌에 따라 행동을 최적화 할 수 있습니다. 인간 피드백 (RLHF)의 강화 학습, 검증 가능한 보상 (RLVR)이있는 강화 학습, 그룹 상대 정책 최적화 (GRPO) 및 직접 선호도 최적화 (DPO)와 같은 RL의 다양한 변형이 LLM을 미세 조정하기 위해 개발되었습니다. 인간 선호도와의 조정을 보장하고 추론 능력을 향상시킵니다.
이 기사는 LLM을 형성하는 다양한 강화 학습 접근법을 탐색하여 AI 개발에 대한 기여와 영향을 조사합니다.
AI의 강화 학습 이해
강화 학습 (RL)은 에이전트가 환경과 상호 작용하여 결정을 내리는 법을 배우는 기계 학습 패러다임입니다. 레이블이 붙은 데이터 세트에만 의존하는 대신 에이전트는 조치를 취하고 보상 또는 처벌 형태로 피드백을 받고 그에 따라 전략을 조정합니다.
LLM의 경우 강화 학습은 모델이 인간의 선호, 윤리적 지침 및 실제 추론에 맞는 응답을 생성하도록합니다. 목표는 구문 적으로 올바른 문장을 생성하는 것뿐만 아니라 사회적 규범과 유용하고 의미 있고 일치하는 것입니다.
인간 피드백으로부터의 강화 학습 (RLHF)
LLM 교육에서 가장 널리 사용되는 RL 기술 중 하나는 RLHF. RLHF는 미리 정의 된 데이터 세트에만 의존하는 대신 인간 선호도를 훈련 루프에 통합하여 LLM을 향상시킵니다. 이 과정은 일반적으로 다음과 같습니다.
- 인간 피드백 수집: 인간 평가자는 모델 생성 응답을 평가하고 품질, 일관성, 도움 및 정확성에 따라 순위를 매 깁니다.
- 보상 모델 교육 : 이러한 순위는 인간이 선호하는 출력을 예측하는 별도의 보상 모델을 훈련시키는 데 사용됩니다.
- RL로 미세 조정 : LLM은이 보상 모델을 사용하여 인간의 선호도에 따라 응답을 개선하기 위해 교육을받습니다.
이 접근법은 Chatgpt 및 Claude와 같은 모델을 개선하는 데 사용되었습니다. RLHF는 LLM을 사용자 선호도와 더 일치시키고 편견을 줄이며 복잡한 지침을 따르는 능력을 향상시키는 데 중요한 역할을했지만 리소스 집약적이므로 많은 수의 인간 주석이 AI 출력을 평가하고 미세 조정해야합니다. 이 제한으로 인해 연구원들은 다음과 같은 대체 방법을 탐색하게되었습니다. AI 피드백 (RLAIF)의 강화 학습 그리고 검증 가능한 보상을 가진 강화 학습 (RLVR).
RLAIF : AI 피드백의 강화 학습
RLHF와 달리 RLAIF는 AI 생성 선호도에 의존하여 인간의 피드백보다는 LLM을 훈련시킵니다. 다른 AI 시스템 (일반적으로 LLM)을 사용하여 응답을 평가하고 순위를 매기고 LLM의 학습 프로세스를 안내 할 수있는 자동 보상 시스템을 만듭니다.
이 접근법은 인간 주석이 비싸고 시간이 많이 걸릴 수있는 RLHF와 관련된 확장 성 문제를 해결합니다. RLAIF는 AI 피드백을 사용하여 일관성과 효율성을 향상시켜 주관적인 인간 의견에 의해 도입 된 변동성을 줄입니다. RLAIF는 LLM을 규모로 정제하는 귀중한 접근 방식이지만 때로는 AI 시스템에 존재하는 기존 바이어스를 강화할 수 있습니다.
검증 가능한 보상을 가진 강화 학습 (RLVR)
RLHF와 RLAIF는 주관적인 피드백에 의존하지만 RLVR은 LLM을 훈련시키기 위해 프로그래밍 방식으로 검증 가능한 보상을 사용합니다. 이 방법은 특히 다음과 같은 명확한 정확성 기준이있는 작업에 특히 효과적입니다.
- 수학적 문제 해결
- 코드 생성
- 구조화 된 데이터 처리
RLVR에서 모델의 응답은 사전 정의 된 규칙 또는 알고리즘을 사용하여 평가됩니다. 검증 가능한 보상 함수는 응답이 예상 기준을 충족하는지 여부를 결정하여 정답에 대한 높은 점수를 지정하고 잘못된 점수는 잘못된 점수를 올렸습니다.
이 접근법은 인간 라벨링 및 AI 편견에 대한 의존성을 줄여 훈련을보다 확장 가능하고 비용 효율적으로 만듭니다. 예를 들어, 수학적 추론 작업에서 RLVR은 다음과 같은 모델을 개선하는 데 사용되었습니다. Deepseek의 R1-Zero인간의 개입없이 자기 개선을 허용합니다.
LLM에 대한 강화 학습 최적화
LLM이 보상을 받고 피드백에서 배우는 방법을 안내하는 전술 한 기술 외에도 RL의 똑같이 중요한 측면은 모델이 이러한 보상을 기반으로 자신의 행동 (또는 정책)을 채택하거나 최적화하는 방법입니다. 이것은 고급 최적화 기술이 작동하는 곳입니다.
RL의 최적화는 본질적으로 보상을 극대화하기 위해 모델의 동작을 업데이트하는 프로세스입니다. LLM을 미세 조정할 때 전통적인 RL 접근 방식은 종종 불안정성과 비 효율성으로 고통 받지만 LLM을 최적화하기위한 새로운 접근법이 개발되었습니다. 다음은 LLM을 교육하는 데 사용되는 주요 최적화 전략입니다.
- 근위 정책 최적화 (PPO): PPO는 미세 조정 LLM에 가장 널리 사용되는 RL 기술 중 하나입니다. RL의 주요 과제는 모델 업데이트가 갑작스럽고 급격한 변화없이 성능을 향상시켜 응답 품질을 줄일 수 있도록하는 것입니다. PPO는 통제 된 정책 업데이트를 도입하여 안정성을 유지하기 위해 모델 응답을 점차적으로 안전하게 정제하여이를 해결합니다. 또한 탐사와 착취의 균형을 유지하여 모델이 효과적인 행동을 강화하면서 더 나은 반응을 발견 할 수 있도록 도와줍니다. 또한 PPO는 샘플 효율적이며, 더 작은 데이터 배치를 사용하여 고성능을 유지하면서 교육 시간을 줄입니다. 이 방법은 광범위합니다 사용된 chatgpt와 같은 모델에서는 응답이 특정 보상 신호에 과적되지 않고 도움이되고 관련성이 높으며 인간의 기대와 일치합니다.
- 직접 기본 설정 최적화 (DPO): DPO는 인간 선호도와 일치하도록 모델의 출력을 직접 최적화하는 데 중점을 둔 또 다른 RL 최적화 기술입니다. 복잡한 보상 모델링에 의존하는 기존 RL 알고리즘과 달리 DPO는 이진 선호도 데이터를 기반으로 모델을 직접 최적화합니다. 즉, 하나의 출력이 다른 출력보다 더 나은지 여부를 결정합니다. 이 접근법은 인간 평가자에게 주어진 프롬프트에 대한 모델에 의해 생성 된 여러 응답을 순위로운 사람에게 의존합니다. 그런 다음 미래에 더 높은 순위의 응답을 생성 할 확률을 높이기 위해 모델을 미세 조정합니다. DPO는 특히 상세한 보상 모델을 얻는 것이 어려운 시나리오에서 효과적입니다. RL을 단순화함으로써 DPO를 통해 AI 모델은보다 복잡한 RL 기술과 관련된 계산 부담없이 출력을 향상시킬 수 있습니다.
- 그룹 상대 정책 최적화 (GRPO): LLM에 대한 RL 최적화 기술의 최신 개발 중 하나는 GRPO입니다. PPO와 같은 일반적인 RL 기술은 높은 계산 전력과 중요한 메모리 리소스가 필요한 다양한 응답의 이점을 추정하기 위해 값 모델이 필요하지만 GRPO는 동일한 프롬프트에서 다른 세대의 보상 신호를 사용하여 별도의 값 모델이 필요하지 않습니다. 이는 출력을 정적 값 모델과 비교하는 대신 서로 비교하여 계산 오버 헤드를 크게 줄입니다. GRPO의 가장 주목할만한 응용 중 하나가 Deepseek R1-Zero미세 조정을 감독하지 않고 완전히 훈련 된 모델은 자기 진화를 통해 고급 추론 기술을 개발할 수있었습니다.
결론
강화 학습은 인간 선호도와의 정렬을 향상시키고 추론 능력을 최적화함으로써 큰 언어 모델 (LLM)을 정제하는 데 중요한 역할을합니다. RLHF, RLAIF 및 RLVR과 같은 기술은 보상 기반 학습에 대한 다양한 접근법을 제공하는 한편 PPO, DPO 및 GRPO와 같은 최적화 방법은 교육 효율성 및 안정성을 향상시킵니다. LLM이 계속 발전함에 따라 이러한 모델을보다 지능적이고 윤리적이며 합리적으로 만드는 데 강화 학습의 역할이 중요 해지고 있습니다.
게시물 강화 학습의 많은 얼굴 : 큰 언어 모델 형성 먼저 나타났습니다 Unite.ai.