LLMS가 쉬운 퍼즐을 지나치게 생각하지만 어려운 사람을 포기하는 이유

0
2
llms가-쉬운-퍼즐을-지나치게-생각하지만-어려운-사람을-포기하는-이유
LLMS가 쉬운 퍼즐을 지나치게 생각하지만 어려운 사람을 포기하는 이유

인공 지능은 대형 언어 모델 (LLM)과 고급 상대방으로 놀라운 진전을 이루었습니다. 대규모 추론 모델 (LRMS)기계가 인간과 같은 텍스트를 처리하고 생성하는 방법을 재정의합니다. 이 모델은 에세이를 작성하고 질문에 답변하며 수학적 문제를 해결할 수도 있습니다. 그러나 인상적인 능력에도 불구하고 이러한 모델은 호기심 많은 행동을 보여줍니다. 종종 복잡한 문제로 어려움을 겪는 동안 간단한 문제를 극복합니다. 최근 공부하다 Apple 연구원들은이 현상에 대한 귀중한 통찰력을 제공합니다. 이 기사는 LLM과 LRM이 왜 이런 식으로 행동하는지와 AI의 미래에 무엇을 의미하는지 탐구합니다.

LLM 및 LRM 이해

LLM과 LRM이 왜 이런 식으로 행동하는지 이해하려면 먼저 이러한 모델이 무엇인지 명확히해야합니다. GPT-3 또는 Bert와 같은 LLM은 다음 단어를 순서대로 예측하기 위해 방대한 텍스트 데이터 세트에 대해 교육을받습니다. 이로 인해 텍스트 생성, 번역 및 요약과 같은 작업이 탁월합니다. 그러나 그들은 본질적으로 추론을 위해 설계되지 않았으며, 여기에는 논리적 공제 또는 문제 해결이 포함됩니다.

LRM은 이러한 격차를 해결하도록 설계된 새로운 클래스의 모델입니다. 그들은 같은 기술을 통합합니다 생각의 사슬 (COT) 최종 답변을 제공하기 전에 모델이 중간 추론 단계를 생성하는 프롬프트. 예를 들어, 수학 문제를 해결할 때 LRM은 인간과 마찬가지로 단계로 나눌 수 있습니다. 이 접근법은 복잡한 작업에 대한 성능을 향상 시키지만 Apple Study에서 알 수 있듯이 다양한 복잡성 문제를 다룰 때 어려움에 직면합니다.

연구 연구

Apple Research 팀은 다른 것을 취했습니다 접근하다 LLM 및 LRM의 추론 능력을 평가합니다. 수학 또는 코딩 테스트와 같은 기존의 벤치 마크에 의존하는 대신 데이터 오염 (모델이 답변을 암기하는 경우)에 의해 영향을받을 수있는 통제 퍼즐 환경을 만들었습니다. 여기에는 잘 알려진 퍼즐이 포함되어 있습니다 하노이 타워,,, 체커 점프,,, 강 횡단그리고 세계를 차단합니다. 예를 들어, 하노이 타워에는 특정 규칙에 따라 PEG 사이에 디스크를 움직이는 것이 포함되며, 더 많은 디스크가 추가됨에 따라 복잡성이 증가합니다. 일관된 논리적 구조를 유지하면서 이러한 퍼즐의 복잡성을 체계적으로 조정함으로써, 연구자들은 모델이 어떻게 어려움을 겪는지를 관찰합니다. 이 방법을 사용하면 최종 답변뿐만 아니라 추론 프로세스를 분석 할 수 있었으며,이 모델은 이러한 모델이 어떻게“생각하는지에 대한 자세한 내용을 제공합니다.

지나치게 생각하고 포기하는 결과

이 연구는 문제 복잡성에 기초하여 세 가지 별개의 성과 체제를 확인했습니다.

  • 복잡성 수준이 낮은 수준에서 표준 LLM은 LRM이 지나치게 생각하는 경향이 있기 때문에 LRM보다 더 나은 성능을 발휘하여 필요하지 않은 추가 단계를 생성하는 반면 표준 LLM은 더 효율적입니다.
  • 중간 복잡성 문제의 경우 LRMS는 이러한 과제를 효과적으로 해결하는 데 도움이되는 상세한 추론 흔적을 생성 할 수있는 능력으로 인해 우수한 성능을 보여줍니다.
  • 복잡성이 높은 문제의 경우 LLM과 LRM이 모두 실패합니다. 특히 LRM은 정확도가 완전히 붕괴되고 어려움이 증가 함에도 불구하고 추론 노력을 줄입니다.

하나 또는 두 개의 디스크가있는 하노이 타워와 같은 간단한 퍼즐의 경우 표준 LLM이 정답을 제공하는 데 더 효율적이었습니다. 그러나 LRM은 종종 이러한 문제를 고려하여 솔루션이 간단한 경우에도 긴 추론 흔적을 생성합니다. 이는 LRM이 교육 데이터에서 과장된 설명을 모방하여 비 효율성으로 이어질 수 있음을 시사합니다.

적당히 복잡한 시나리오에서 LRM이 더 잘 수행되었습니다. 자세한 추론 단계를 생성하는 능력은 여러 논리적 단계가 필요한 문제를 해결할 수있었습니다. 이를 통해 표준 LLM을 능가하여 일관성을 유지하기 위해 고군분투했습니다.

그러나 많은 디스크가있는 하노이 타워와 같은 매우 복잡한 퍼즐의 경우 두 모델 모두 실패했습니다. 놀랍게도, LRM은 충분한 계산 자원이 있음에도 불구하고 복잡성이 특정 지점을 넘어서 증가함에 따라 추론 노력을 줄였습니다. 이 “포기”행동은 추론 능력을 확장하는 능력의 근본적인 한계를 나타냅니다.

왜 이런 일이 일어나는지

단순한 퍼즐의 지나치게 생각하면 LLM과 LRM이 훈련되는 방식에서 비롯 될 수 있습니다. 이 모델은 간결하고 자세한 설명이 모두 포함 된 방대한 데이터 세트에서 학습합니다. 쉬운 문제의 경우, 직접적인 답변이 충분한 경우에도 교육 데이터에서 긴 예제를 모방하는 장황 추론 흔적을 생성하는 데 기본값이있을 수 있습니다. 이 행동은 반드시 결함이 아니라 훈련을 반영하여 효율성에 대한 추론을 우선시합니다.

복잡한 퍼즐의 실패는 LLM과 LRM이 논리적 규칙을 일반화하는 법을 배울 수 없다는 것을 반영합니다. 문제 복잡성이 증가함에 따라 패턴 매칭에 대한 의존도가 무너지면서 일관되지 않은 추론과 성능 붕괴가 발생합니다. 이 연구는 LRM이 명시적인 알고리즘과 다른 퍼즐에서 일관되지 않은 이유를 사용하지 못한다는 것을 발견했습니다. 이것은 이러한 모델이 추론을 시뮬레이션 할 수 있지만 인간이하는 방식의 근본적인 논리를 진정으로 이해하지 못한다는 것을 강조합니다.

다양한 관점

이 연구는 AI 커뮤니티에서 논의를 일으켰습니다. 일부 전문가 다투다 이러한 발견이 될 수 있습니다 잘못 해석되었습니다. 그들은 LLM과 LRM이 인간처럼 추론하지 않을 수 있지만, 여전히 특정 복잡성 한계 내에서 효과적인 문제 해결을 보여줍니다. 그들은 AI의“추론”이 귀중하기 위해 인간의 인식을 반영 할 필요가 없다는 것을 강조한다. 비슷하게, 토론 Hacker News와 같은 플랫폼에서는이 연구의 엄격한 접근 방식을 칭찬하지만 AI 추론을 개선하기위한 추가 연구의 필요성을 강조합니다. 이러한 관점은 AI의 추론을 구성하는 요소와 우리가 그것을 평가 해야하는 방법에 대한 지속적인 논쟁을 강조합니다.

시사점과 미래 방향

이 연구 결과는 AI 개발에 중대한 영향을 미칩니다. LRM은 인간의 추론을 모방하는 데있어 진전을 나타내지 만, 복잡한 문제를 처리하고 추론 노력을 확장하는 데있어서의 제한은 현재 모델이 일반화 가능한 추론을 달성하지 못한다는 것을 시사합니다. 이는 최종 답변의 정확성뿐만 아니라 추론 프로세스의 품질과 적응성에 중점을 둔 새로운 평가 방법의 필요성을 강조합니다.

향후 연구는 논리적 단계를 정확하게 실행하고 문제 복잡성에 따라 추론 노력을 조정하는 모델의 능력을 향상시키는 것을 목표로해야합니다. 의료 진단 또는 법적 논증과 같은 실제 추론 작업을 반영하는 벤치 마크를 개발하면 AI 기능에 대한보다 의미있는 통찰력을 제공 할 수 있습니다. 또한, 패턴 인식에 대한 모델의 과도한 관계를 해결하고 논리적 규칙을 일반화하는 능력을 향상시키는 것은 AI 추론을 발전시키는 데 중요합니다.

결론

이 연구는 LLM 및 LRM의 추론 능력에 대한 비판적 분석을 제공합니다. 이 모델은 단순한 퍼즐을 과도하게 분석하지만 더 복잡한 퍼즐로 어려움을 겪고 강점과 한계를 모두 노출 시킨다는 것을 보여줍니다. 비록 특정 상황에서는 잘 수행되지만, 매우 복잡한 문제를 해결할 수 없다는 것은 시뮬레이션 된 추론과 진정한 이해 사이의 격차를 강조합니다. 이 연구는 다양한 수준의 복잡성에 적응 적으로 추론 할 수있는 AI 시스템을 개발할 필요성을 강조하여 인간과 마찬가지로 다양한 복잡성 문제를 해결할 수있게합니다.

게시물 LLMS가 쉬운 퍼즐을 지나치게 생각하지만 어려운 사람을 포기하는 이유 먼저 나타났습니다 Unite.ai.