AI 챗봇이 종종 sycophantic 인 이유는 무엇입니까?

0
19
ai-챗봇이-종종-sycophantic-인-이유는-무엇입니까?
AI 챗봇이 종종 sycophantic 인 이유는 무엇입니까?

당신은 물건을 상상하고 있습니까, 아니면 인공 지능 (AI) 챗봇이 당신과 동의하기에 너무 열심 인 것처럼 보입니까? 의심스러운 아이디어가 “훌륭하다”고 말하거나 거짓일 수있는 무언가를 뒷받침하는지 여부에 관계 없이이 행동은 전 세계적으로 관심을 끌고 있습니다.

최근 OpenAi는 사용자가 ChatGpt가 YES-MAN처럼 행동하는 것을 발견 한 후 헤드 라인을 만들었습니다. Model 4o에 대한 업데이트는 봇을 정중하게 만들어서 편견이 있더라도 당신을 행복하게하기 위해 기꺼이 말할 의향이있었습니다.

이러한 시스템이 왜 아첨에 의존하고 무엇이 당신의 의견을 반영하게 만드는가? 이와 같은 질문은 이해하는 것이 중요하므로 생성 AI를보다 안전하고 즐겁게 사용할 수 있습니다.

너무 멀리 진행된 chatgpt 업데이트

2025 년 초, ChatGpt 사용자는 LLM (Lange Language Model)에 대해 이상한 것을 발견했습니다. 그것은 항상 친절했지만 지금은 너무 즐거웠습니다. 진술이 얼마나 이상하거나 잘못되었는지에 관계없이 거의 모든 것에 동의하기 시작했습니다. 당신은 당신이 진실한 것에 동의하지 않는다고 말할 수 있으며, 그것은 같은 의견으로 응답 할 것입니다.

이 변경은 시스템 업데이트가 Chatgpt를보다 도움이되고 대화를 나누기위한 후에 발생했습니다. 그러나 사용자 만족도를 높이기 위해이 모델은 너무 준수하는 것에 대해 과도하게 표시되기 시작했습니다. 균형 잡힌 또는 사실적인 응답을 제공하는 대신 검증에 의존했습니다.

사용자가 지나치게 sycophantic 응답에 대한 경험을 온라인으로 공유하기 시작했을 때 반발은 빠르게 발화했습니다. AI 주석가들은이를 모델 튜닝의 실패로 불렀으며 OpenAi는 업데이트의 일부를 롤백하여 문제를 해결함으로써 응답했습니다.

공공 게시물에서 회사 GPT-4O가 sycophantish임을 인정했습니다 행동을 줄이기위한 조정을 약속했습니다. AI 디자인의 좋은 의도는 때때로 옆으로 갈 수 있으며, 사용자가 부적절하기 시작할 때 빠르게 알아 차릴 수 있음을 상기시켜주었습니다.

AI 챗봇이 사용자에게 키스하는 이유는 무엇입니까?

Sycophancy는 연구자들이 많은 AI 보조원에서 관찰 한 것입니다. Arxiv에 발표 된 연구에 따르면 Sycophancy는 광범위한 패턴임을 발견했습니다. 분석 결과가 밝혀졌습니다 5 개의 최고급 제공 업체의 AI 모델 잘못된 답변으로 이어 지더라도 사용자와 일관되게 동의합니다. 이러한 시스템은 질문 할 때 실수를 인정하는 경향이있어 편향된 피드백과 오류를 모방합니다.

이 챗봇은 당신이 틀렸을 때에도 당신과 함께 갈 수 있도록 훈련되었습니다. 왜 이런 일이 발생합니까? 짧은 대답은 개발자가 AI를 만들어 도움이 될 수 있다는 것입니다. 그러나 이러한 도움은 긍정적 인 사용자 피드백을 우선시하는 교육을 기반으로합니다. 인간 피드백 (RLHF)을 사용한 강화 학습이라는 방법을 통해 모델은 응답을 극대화하는 법을 배웁니다 그 인간은 만족 스럽습니다. 문제는 만족이 항상 정확하다는 것을 의미하는 것은 아닙니다.

AI 모델이 사용자가 특정 종류의 답변을 찾는 것을 감지하면, 합당한 측면에서 잘못된 경향이 있습니다. 그것은 당신의 의견을 확인하거나 대화가 계속 흐르기 위해 허위 주장을지지하는 것을 의미 할 수 있습니다.

플레이시 미러링 효과도 있습니다. AI 모델은 그들이받는 입력의 톤, 구조 및 논리를 반영합니다. 자신감이 있으면 봇이 보장 할 가능성이 더 높습니다. 그래도 당신이 옳다고 생각하는 모델은 아닙니다. 오히려, 일을 친근하고 도움이되는 것처럼 보이기 위해 노력하고 있습니다.

챗봇이 지원 시스템 인 것처럼 느껴질 수 있지만, 뒤로 밀기 대신 기쁘게 훈련하는 방법을 반영 할 수 있습니다.

sycophantic ai의 문제

챗봇이 당신이 말하는 모든 것을 준수 할 때 무해한 것처럼 보일 수 있습니다. 그러나 Sycophantic AI 동작에는 특히 이러한 시스템이 더 널리 사용됨에 따라 단점이 있습니다.

잘못된 정보는 패스를 얻습니다

정확도는 가장 큰 문제 중 하나입니다. 이 SmartBots가 허위 또는 편견 주장을 확인하면 오해를 수정하는 대신 강화를 강화할 위험이 있습니다. 이것은 건강, 금융 또는 현재 이벤트와 같은 심각한 주제에 대한 지침을 구할 때 특히 위험 해집니다. LLM이 정직보다 동의하는 우선 순위가 있다면 사람들은 잘못된 정보를 남겨두고 전파 할 수 있습니다.

비판적 사고의 여지가 거의 없습니다

AI가 매력적으로 만드는 것은 생각 파트너처럼 행동 할 수있는 잠재력입니다. 귀하의 가정에 도전하거나 새로운 것을 배우도록 도와줍니다. 그러나 챗봇이 항상 동의하면 생각할 여지가 거의 없습니다. 시간이 지남에 따라 아이디어를 반영하므로, 비판적 사고를 날카롭게 할 수 있습니다.

인간의 삶을 무시합니다

sycophantic 행동은 성가신 것 이상으로 잠재적으로 위험합니다. AI 조교에게 의학적 조언을 요청하고 증거 기반 지침보다는 편안한 합의로 응답하는 경우 결과는 심각하게 해로울 수 있습니다.

예를 들어, AI 중심 의료용 봇을 사용하기 위해 상담 플랫폼으로 이동한다고 가정 해 봅시다. 증상과 당신이 의심되는 일을 설명한 후, 봇은자가 진단을 검증하거나 상태를 경시 할 수 있습니다. 이로 인해 심각한 결과에 기여하여 오진 또는 치료가 지연 될 수 있습니다.

더 많은 사용자와 개방형 액세스로 인해 제어하기가 더 어려워집니다

이러한 플랫폼이 일상 생활에 더욱 통합되면서 이러한 위험의 범위는 계속 증가하고 있습니다. 지금 혼자 chatgpt 10 억 명의 사용자에게 서비스를 제공합니다 매주, 따라서 편견과 지나치게 합당한 패턴은 대규모 청중에 걸쳐 흐를 수 있습니다.

또한,이 문제는 AI가 오픈 플랫폼을 통해 얼마나 빨리 액세스 할 수 있는지 고려할 때 증가합니다. 예를 들어, DeepSeek AI 누구나 사용자 정의 할 수 있습니다 LLM을 무료로 구축하십시오.

오픈 소스 혁신은 흥미 진진하지만,이 시스템은 Guardrails가없는 개발자의 손에 이러한 시스템이 어떻게 행동하는지에 대한 통제력이 훨씬 적다는 것을 의미합니다. 적절한 감독이 없으면 사람들은 수정하기 어려운 방식으로 sycophantic 행동이 증폭되는 것을 볼 위험이 있습니다.

Openai 개발자가 어떻게 해결하려고하는지

Openai는 Chatgpt를 사람들을 기뻐하게 만든 업데이트를 롤백 한 후이를 수정하겠다고 약속했습니다. 몇 가지 주요 방법을 통해이 문제를 해결하는 방법 :

  • 핵심 교육 및 시스템 프롬프트 재 작업 : 개발자들은 정직을 향해 그리고 자동 계약에서 멀어지는 명확한 지침으로 모델을 훈련하고 프롬프트하는 방법을 조정하고 있습니다.
  • 정직과 투명성을 위해 더 강한 가드 레일 추가 : OpenAi는 챗봇이 사실적이고 신뢰할 수있는 정보를 고수 할 수 있도록보다 시스템 수준의 보호를 베이킹하고 있습니다.
  • 연구 및 평가 노력 확대 : 회사는이 행동의 원인과 미래의 모델에서이를 방지하는 방법에 대해 더 깊이 파고 들고 있습니다.
  • 프로세스 초기에 사용자를 포함시킵니다. 사람들이 모델을 테스트하고 업데이트가 진행되기 전에 피드백을 제공 할 수있는 더 많은 기회를 창출하여 Sycophancy와 같은 문제를 일찍 발견하는 데 도움이됩니다.

sycophantic ai를 피하기 위해 사용자가 할 수있는 일

개발자는이 모델을 재교육하고 미세 조정하기 위해 무대 뒤에서 작업하지만 챗봇의 반응 방식을 형성 할 수도 있습니다. 보다 균형 잡힌 상호 작용을 장려하는 간단하지만 효과적인 방법은 다음과 같습니다.

  • 명확하고 중립적 인 프롬프트 사용 : 유효성 검사를 구걸하는 방식으로 입력을 표명하는 대신 더 많은 개방형 질문을 시도하여 동의에 대한 압력이 줄어 듭니다.
  • 여러 관점을 요청하십시오. 논쟁의 양쪽을 요구하는 프롬프트를 시도하십시오. 이것은 LLM을 긍정보다는 균형을 찾고 있음을 알려줍니다.
  • 응답에 도전하십시오 : 무언가가 너무 아첨하거나 단순하게 들리면 사실 확인이나 반점을 요구하여 후속 조치를 취하십시오. 이것은 모델을보다 복잡한 답변으로 밀어 넣을 수 있습니다.
  • 엄지 손가락 또는 엄지 손가락 다운 버튼을 사용하십시오. 피드백이 핵심입니다. 지나치게 따뜻한 응답에서 엄지 손가락 다운을 클릭하면 개발자가 해당 패턴을 플래그하고 조정하는 데 도움이됩니다.
  • 사용자 정의 지침 설정 : 이제 Chatgpt를 사용하면 사용자가 응답 방식을 개인화 할 수 있습니다. 톤이 얼마나 형식적이거나 캐주얼 해야하는지 조정할 수 있습니다. 당신은 그것을 더 객관적이거나 직접적이거나 회의적이라고 요청할 수도 있습니다. 설정> 사용자 정의 지침으로 이동하면 모델에 어떤 종류의 성격이나 접근 방식을 선호하는지 알 수 있습니다.

엄지 손가락 위에 진실을 준다

sycophantic ai는 문제가 될 수 있지만 좋은 소식은 해결할 수 있다는 것입니다. 개발자들은 이러한 모델을보다 적절한 행동으로 안내하기위한 조치를 취하고 있습니다. 챗봇이 당신을 지나치게 시도하는 것을 발견했다면, 당신이 의존 할 수있는 더 똑똑한 조수로 만들기위한 조치를 취하십시오.

게시물 AI 챗봇이 종종 sycophantic 인 이유는 무엇입니까? 먼저 나타났습니다 Unite.ai.