AI 뉴스허브

OpenAi의 O3에서 DeepSeek의 R1에 이르기까지 : 모의 사고가 LLM을 더 깊이 생각하게 만드는 방법

OpenAi의 O3에서 DeepSeek의 R1에 이르기까지 : 모의 사고가 LLM을 더 깊이 생각하게 만드는 방법

OpenAi의 O3에서 DeepSeek의 R1에 이르기까지 : 모의 사고가 LLM을 더 깊이 생각하게 만드는 방법

대형 언어 모델 (LLM)이 크게 발전했습니다. 간단한 텍스트 생성 및 번역 도구로 시작한 것은 이제 연구, 의사 결정 및 복잡한 문제 해결에 사용되고 있습니다. 이러한 변화의 핵심 요소는 문제를 해결하고, 여러 가능성을 평가하고, 그들의 응답을 동적으로 정제함으로써 LLM이 체계적으로 생각할 수있는 능력이 커지는 것입니다. 다음 단어를 순서대로 예측하기보다는 이러한 모델은 이제 구조화 된 추론을 수행 할 수있어 복잡한 작업을보다 효과적으로 처리 할 수 ​​있습니다. 다음과 같은 주요 모델 Openai의 O3,,, 구글의 쌍둥이 자리그리고 Deepseek의 R1 이러한 기능을 통합하여 정보를보다 효과적으로 처리하고 분석하는 능력을 향상시킵니다.

시뮬레이션 된 사고 이해

인간은 결정을 내리기 전에 자연스럽게 다른 옵션을 분석합니다. 휴가를 계획하거나 문제 해결에 관계없이, 우리는 종종 여러 가지 요인을 평가하고, 장단점을 평가하고, 그에 따라 선택을 조정하기 위해 다른 계획을 시뮬레이션합니다. 연구원들은이 능력을 LLM에 통합하여 추론 능력을 향상시키고 있습니다. 여기서, 시뮬레이션 된 사고는 기본적으로 답을 생성하기 전에 체계적인 추론을 수행하는 LLM의 능력을 나타냅니다. 이것은 저장된 데이터에서 단순히 응답을 검색하는 것과 대조적입니다. 유용한 비유는 수학 문제를 해결하는 것입니다.

사슬의 생각 : AI가 단계적으로 생각하도록 가르치고 있습니다

LLM이 인간과 같은 모의 사고를 실행해야한다면 복잡한 문제를 더 작고 순차적 인 단계로 분해 할 수 있어야합니다. 이것은 어디에 있습니다 생각의 사슬 (COT) 기술은 중요한 역할을합니다.

COT는 LLM이 체계적으로 문제를 해결하도록 안내하는 프롬프트 접근법입니다. 이 구조화 된 추론 프로세스를 통해 LLM은 복잡한 문제를 더 간단하고 관리 가능한 단계로 나누고 단계별로 해결할 수 있습니다.

예를 들어, 수학에서 단어 문제를 해결할 때 :

이 접근법은 논리적 공제, 다단계 문제 해결 및 맥락 적 이해가 필요한 영역에서 효율적입니다. 이전 모델에는 인간이 제공 한 추론 체인이 필요했지만 OpenAi의 O3 및 DeepSeek의 R1과 같은 고급 LLM은 적응 적으로 COT 추론을 배우고 적용 할 수 있습니다.

LLM을 선도하는 방법이 시뮬레이션 된 사고를 구현하는 방법

다른 LLM은 다른 방식으로 시뮬레이션 된 사고를 사용하고 있습니다. 아래는 OpenAi의 O3, Google DeepMind의 모델 및 DeepSeek-R1이 각각의 강점과 한계와 함께 시뮬레이션 된 사고를 실행하는 방법에 대한 개요입니다.

Openai O3 : 체스 플레이어처럼 미리 생각합니다

OpenAI의 O3 모델에 대한 정확한 세부 사항은 공개되지 않은 상태로 유지되지만 연구원 믿다 비슷한 기술을 사용합니다 몬테 카를로 트리 검색 (MCTS), AI 구동 게임에 사용되는 전략 알파고. 결정하기 전에 여러 움직임을 분석하는 체스 플레이어와 마찬가지로 O3는 다른 솔루션을 탐색하고 품질을 평가하며 가장 유망한 것을 선택합니다.

패턴 인식에 의존하는 이전 모델과 달리 O3는 COT 기술을 사용하여 추론 경로를 적극적으로 생성하고 개선합니다. 추론 중에는 여러 추론 체인을 구성하기 위해 추가 계산 단계를 수행합니다. 그런 다음 평가자 모델에 의해 평가됩니다. 논리적 일관성과 정확성을 보장하기 위해 훈련 된 보상 모델입니다. 최종 응답은 합리적 인 출력을 제공하기위한 스코어링 메커니즘을 기반으로 선택됩니다.

O3는 구조화 된 다중 단계 프로세스를 따릅니다. 처음에는 인간 추론 체인의 방대한 데이터 세트에 미세 조정되어 논리적 사고 패턴을 내재화합니다. 추론 시간에 주어진 문제에 대한 여러 솔루션을 생성하고 정확성과 일관성에 따라 순위를 매기고 필요한 경우 가장 좋은 솔루션을 개선합니다. 이 방법은 응답하기 전에 O3가 자체 수정하고 정확도를 향상시킬 수 있지만, 트레이드 오프는 계산 비용이므로 여러 가능성을 탐구하면 상당한 처리 능력이 필요하므로 더 느리고 리소스 집약적이 필요합니다. 그럼에도 불구하고 O3는 동적 분석 및 문제 해결에서 탁월하여 오늘날 가장 진보 된 AI 모델 중 하나를 배치합니다.

Google Deepmind : 편집자처럼 정답을 정제합니다

Deepmind는마음의 진화이는 추론을 반복적 인 정제 과정으로 취급합니다. 이 모델은 여러 가지 미래 시나리오를 분석하는 대신 다양한 에세이 초안을 개선하는 편집자처럼 작용합니다. 이 모델은 몇 가지 가능한 답변을 생성하고 품질을 평가하며 최고의 답변을 개선합니다.

유전자 알고리즘에서 영감을 얻은이 과정은 반복을 통한 고품질 반응을 보장합니다. 명확한 기준이 최상의 답변을 결정하는 로직 퍼즐 및 프로그래밍 문제와 같은 구조화 된 작업에 특히 효과적입니다.

그러나이 방법에는 한계가 있습니다. 응답 품질을 평가하기 위해 외부 스코어링 시스템에 의존하기 때문에 명확한 권리 또는 잘못된 답변없이 추상 추론으로 어려움을 겪을 수 있습니다. 실시간으로 동적으로 이유가있는 O3와 달리 DeepMind의 모델은 기존 답변을 개선하는 데 중점을 두어 개방형 질문에 덜 유연합니다.

Deepseek-R1 : 학생처럼 추론하는 법을 배우십시오

DeepSeek-R1은 실시간으로 여러 응답을 평가하기보다는 시간이 지남에 따라 추론 기능을 개발할 수있는 강화 학습 기반 접근 방식을 사용합니다. DeepSeek-R1은 사전 생성 된 추론 데이터에 의존하는 대신 문제를 해결하고, 피드백을 받고, 반복적으로 개선하여 학생들이 연습을 통해 문제 해결 기술을 개선하는 방법과 유사합니다.

이 모델은 구조화 된 강화 학습 루프를 따릅니다. 다음과 같은 기본 모델로 시작합니다 Deepseek-V3수학적 문제를 단계별로 해결하라는 메시지가 표시됩니다. 각 답변은 직접 코드 실행을 통해 확인되며, 추가 모델이 정확성을 검증하기위한 필요성을 우회합니다. 솔루션이 올바른 경우 모델에 보상을받습니다. 잘못된 경우 처벌을받습니다. 이 프로세스는 광범위하게 반복되어 DeepSeek-R1이 논리적 추론 기술을 개선하고 시간이 지남에 따라 더 복잡한 문제를 우선시 할 수 있습니다.

이 접근법의 주요 장점은 효율성입니다. 추론 시간에 광범위한 추론을 수행하는 O3와 달리 DeepSeek-R1은 교육 중에 추론 기능을 포함시켜 더 빠르고 비용 효율적입니다. 대규모 레이블이 붙은 데이터 세트 또는 비싼 검증 모델이 필요하지 않기 때문에 확장 가능합니다.

그러나이 강화 학습 기반 접근 방식에는 트레이드 오프가 있습니다. 검증 가능한 결과를 가진 작업에 의존하기 때문에 수학 및 코딩이 탁월합니다. 그럼에도 불구하고 그것은 법, 윤리 또는 창의적 문제 해결에서 추상적 인 추론으로 어려움을 겪을 수 있습니다. 수학적 추론은 다른 영역으로 전달 될 수 있지만, 더 넓은 적용 가능성은 확실하지 않습니다.

테이블: Openai의 O3, Deepmind ‘s Mind Evolution과 Deepseek’s R1의 비교

AI 추론의 미래

시뮬레이션 된 추론은 AI를보다 신뢰할 수 있고 지능적으로 만드는 중요한 단계입니다. 이러한 모델이 진화함에 따라, 초점은 단순히 텍스트를 생성하는 것에서 인간의 사고와 매우 유사한 강력한 문제 해결 능력을 개발하는 것으로 전환 될 것입니다. 향후 발전은 AI 모델을 오류를 식별하고 수정하고 외부 도구와 통합하여 응답을 확인하고 모호한 정보에 직면 할 때 불확실성을 인식 할 수있는 AI 모델을 만드는 데 중점을 둘 것입니다. 그러나 주요 과제는 계산 효율성과 추론 깊이의 균형을 맞추는 것입니다. 궁극적 인 목표는 조치를 취하기 전에 각 결정을 신중하게 평가하는 것처럼 자신의 반응을 신중하게 고려하고 정확성과 신뢰성을 보장하는 AI 시스템을 개발하는 것입니다.

게시물 OpenAi의 O3에서 DeepSeek의 R1에 이르기까지 : 모의 사고가 LLM을 더 깊이 생각하게 만드는 방법 먼저 나타났습니다 Unite.ai.

Exit mobile version