AI 뉴스허브

강화 학습의 많은 얼굴 : 큰 언어 모델 형성

강화 학습의 많은 얼굴 : 큰 언어 모델 형성

강화 학습의 많은 얼굴 : 큰 언어 모델 형성

최근 몇 년 동안 LLM (Lange Language Model)은 인공 지능 분야 (AI)를 크게 재정의하여 기계가 놀라운 능력으로 인간과 같은 텍스트를 이해하고 생성 할 수있게 해줍니다. 이 성공은 주로 딥 러닝 및 강화 학습 (RL)을 포함한 기계 학습 방법론의 발전에 기인합니다. 감독 된 학습은 LLM을 훈련시키는 데 중요한 역할을했지만 강화 학습은 단순한 패턴 인식을 넘어 능력을 개선하고 향상시키는 강력한 도구로 등장했습니다.

강화 학습을 통해 LLM은 경험을 통해 배우고 보상이나 처벌에 따라 행동을 최적화 할 수 있습니다. 인간 피드백 (RLHF)의 강화 학습, 검증 가능한 보상 (RLVR)이있는 강화 학습, 그룹 상대 정책 최적화 (GRPO) 및 직접 선호도 최적화 (DPO)와 같은 RL의 다양한 변형이 LLM을 미세 조정하기 위해 개발되었습니다. 인간 선호도와의 조정을 보장하고 추론 능력을 향상시킵니다.

이 기사는 LLM을 형성하는 다양한 강화 학습 접근법을 탐색하여 AI 개발에 대한 기여와 영향을 조사합니다.

AI의 강화 학습 이해

강화 학습 (RL)은 에이전트가 환경과 상호 작용하여 결정을 내리는 법을 배우는 기계 학습 패러다임입니다. 레이블이 붙은 데이터 세트에만 의존하는 대신 에이전트는 조치를 취하고 보상 또는 처벌 형태로 피드백을 받고 그에 따라 전략을 조정합니다.

LLM의 경우 강화 학습은 모델이 인간의 선호, 윤리적 지침 및 실제 추론에 맞는 응답을 생성하도록합니다. 목표는 구문 적으로 올바른 문장을 생성하는 것뿐만 아니라 사회적 규범과 유용하고 의미 있고 일치하는 것입니다.

인간 피드백으로부터의 강화 학습 (RLHF)

LLM 교육에서 가장 널리 사용되는 RL 기술 중 하나는 RLHF. RLHF는 미리 정의 된 데이터 세트에만 의존하는 대신 인간 선호도를 훈련 루프에 통합하여 LLM을 향상시킵니다. 이 과정은 일반적으로 다음과 같습니다.

  1. 인간 피드백 수집: 인간 평가자는 모델 생성 응답을 평가하고 품질, 일관성, 도움 및 정확성에 따라 순위를 매 깁니다.
  2. 보상 모델 교육 : 이러한 순위는 인간이 선호하는 출력을 예측하는 별도의 보상 모델을 훈련시키는 데 사용됩니다.
  3. RL로 미세 조정 : LLM은이 보상 모델을 사용하여 인간의 선호도에 따라 응답을 개선하기 위해 교육을받습니다.

이 접근법은 Chatgpt 및 Claude와 같은 모델을 개선하는 데 사용되었습니다. RLHF는 LLM을 사용자 선호도와 더 일치시키고 편견을 줄이며 복잡한 지침을 따르는 능력을 향상시키는 데 중요한 역할을했지만 리소스 집약적이므로 많은 수의 인간 주석이 AI 출력을 평가하고 미세 조정해야합니다. 이 제한으로 인해 연구원들은 다음과 같은 대체 방법을 탐색하게되었습니다. AI 피드백 (RLAIF)의 강화 학습 그리고 검증 가능한 보상을 가진 강화 학습 (RLVR).

RLAIF : AI 피드백의 강화 학습

RLHF와 달리 RLAIF는 AI 생성 선호도에 의존하여 인간의 피드백보다는 LLM을 훈련시킵니다. 다른 AI 시스템 (일반적으로 LLM)을 사용하여 응답을 평가하고 순위를 매기고 LLM의 학습 프로세스를 안내 할 수있는 자동 보상 시스템을 만듭니다.

이 접근법은 인간 주석이 비싸고 시간이 많이 걸릴 수있는 RLHF와 관련된 확장 성 문제를 해결합니다. RLAIF는 AI 피드백을 사용하여 일관성과 효율성을 향상시켜 주관적인 인간 의견에 의해 도입 된 변동성을 줄입니다. RLAIF는 LLM을 규모로 정제하는 귀중한 접근 방식이지만 때로는 AI 시스템에 존재하는 기존 바이어스를 강화할 수 있습니다.

검증 가능한 보상을 가진 강화 학습 (RLVR)

RLHF와 RLAIF는 주관적인 피드백에 의존하지만 RLVR은 LLM을 훈련시키기 위해 프로그래밍 방식으로 검증 가능한 보상을 사용합니다. 이 방법은 특히 다음과 같은 명확한 정확성 기준이있는 작업에 특히 효과적입니다.

RLVR에서 모델의 응답은 사전 정의 된 규칙 또는 알고리즘을 사용하여 평가됩니다. 검증 가능한 보상 함수는 응답이 예상 기준을 충족하는지 여부를 결정하여 정답에 대한 높은 점수를 지정하고 잘못된 점수는 잘못된 점수를 올렸습니다.

이 접근법은 인간 라벨링 및 AI 편견에 대한 의존성을 줄여 훈련을보다 확장 가능하고 비용 효율적으로 만듭니다. 예를 들어, 수학적 추론 작업에서 RLVR은 다음과 같은 모델을 개선하는 데 사용되었습니다. Deepseek의 R1-Zero인간의 개입없이 자기 개선을 허용합니다.

LLM에 대한 강화 학습 최적화

LLM이 보상을 받고 피드백에서 배우는 방법을 안내하는 전술 한 기술 외에도 RL의 똑같이 중요한 측면은 모델이 이러한 보상을 기반으로 자신의 행동 (또는 정책)을 채택하거나 최적화하는 방법입니다. 이것은 고급 최적화 기술이 작동하는 곳입니다.

RL의 최적화는 본질적으로 보상을 극대화하기 위해 모델의 동작을 업데이트하는 프로세스입니다. LLM을 미세 조정할 때 전통적인 RL 접근 방식은 종종 불안정성과 비 효율성으로 고통 받지만 LLM을 최적화하기위한 새로운 접근법이 개발되었습니다. 다음은 LLM을 교육하는 데 사용되는 주요 최적화 전략입니다.

결론

강화 학습은 인간 선호도와의 정렬을 향상시키고 추론 능력을 최적화함으로써 큰 ​​언어 모델 (LLM)을 정제하는 데 중요한 역할을합니다. RLHF, RLAIF 및 RLVR과 같은 기술은 보상 기반 학습에 대한 다양한 접근법을 제공하는 한편 PPO, DPO 및 GRPO와 같은 최적화 방법은 교육 효율성 및 안정성을 향상시킵니다. LLM이 계속 발전함에 따라 이러한 모델을보다 지능적이고 윤리적이며 합리적으로 만드는 데 강화 학습의 역할이 중요 해지고 있습니다.

게시물 강화 학습의 많은 얼굴 : 큰 언어 모델 형성 먼저 나타났습니다 Unite.ai.

Exit mobile version