예의 바르면 AI가 반드시 더 나은 답변을 제공 할 필요는 없습니다

Date:

Adobe Firefly + post 편집

커피 나 레드 와인에 대한 최신 평결만큼이나 AI에 정중 한 대가를 지불하는지 여부에 대한 여론은 다음 달에 도전했습니다. 그럼에도 불구하고 점점 더 많은 사용자가 추가합니다 ‘제발’ 또는 ‘감사합니다’ 습관이없는 것뿐만 아니라 Brusque 교환이 실생활에 이어그러나 그에 대한 믿음에서 더 좋고 생산적인 결과로 이어집니다 AI에서.

이 가정은 사용자와 연구원 사이에서 유포되었으며, 연구 서클에서 신속한 프레이즈를 연구하면서 조정,,, 안전그리고 톤 제어사용자 습관이 그러한 기대를 강화하고 재구성하더라도.

예를 들어, 2024 일본에서 공부 신속한 공손함은 영어, 중국어 및 일본 작업에서 GPT-3.5, GPT-4, Palm-2 및 Claude-2를 테스트하고 각 프롬프트를 세 가지 공손 수준에서 다시 작성하는 것을 테스트 할 수 있음을 발견했습니다. 그 작품의 저자들은 ‘무뚝뚝한’또는 ‘무례한’문구가 사실 정확도와 더 짧은 답변으로 이어진 반면, 적당히 예의 바른 요청은 더 명확한 설명과 거부를 줄였습니다.

또한 Microsoft 정중 한 톤을 추천합니다 문화적 관점보다는 공연에서 부조종사와 함께.

그러나 a 새로운 연구 논문 조지 워싱턴 대학교 (George Washington University)는이 점점 더 인기있는 아이디어에 도전하여 대형 언어 모델의 출력이 ‘붕괴’될 때를 예측하는 수학적 프레임 워크를 제시하여 일관성에서 오해의 소지가 있거나 위험한 콘텐츠로 이동합니다. 그러한 맥락에서 저자는 예의 바르게 주장합니다 의미있게 지연되지 않습니다 또는 방지 이 ‘붕괴’.

연구원들은 공손한 언어 사용이 일반적으로 프롬프트의 주요 주제와 관련이 없으므로 모델의 초점에 의미있게 영향을 미치지 않는다고 주장합니다. 이것을 지원하기 위해, 그들은 단일의 방식에 대한 상세한 공식을 제시합니다. 주의 머리 각각의 새로운 처리로 내부 방향을 업데이트합니다 토큰모델의 행동이 누적 영향 컨텐츠가 함유 된 토큰.

결과적으로, 예의 바른 언어는 모델의 출력이 저하되기 시작할 때와 거의 관련이 없다고 주장합니다. 무엇을 결정 하는가 팁 포인트논문은 사회적으로 정중 한 언어의 존재가 아니라 좋은 또는 나쁜 출력 경로와 의미있는 토큰의 전반적인 정렬입니다.

사용자 프롬프트로부터 시퀀스를 생성하는 단순화 된주의 헤드의 그림. 이 모델은 좋은 토큰 (G)으로 시작한 다음 출력이 나쁜 토큰 (B)으로 뒤집어지는 팁 포인트 (N*)에 부딪칩니다. 프롬프트 (p₁, p₂ 등)의 공손한 용어는이 교대에 대한 역할을하지 않으며,이 교대는 모델 행동에 거의 영향을 미치지 않는다는 논문의 주장을 뒷받침합니다. 출처 : https://arxiv.org/pdf/2504.20980

사용자 프롬프트로부터 시퀀스를 생성하는 단순화 된주의 헤드의 그림. 이 모델은 좋은 토큰 (G)으로 시작한 다음 출력이 나쁜 토큰 (B)으로 뒤집어지는 팁 포인트 (N*)에 부딪칩니다. 프롬프트 (p₁, p₂ 등)의 공손한 용어는이 교대에 대한 역할을하지 않으며,이 교대는 모델 행동에 거의 영향을 미치지 않는다는 논문의 주장을 뒷받침합니다. 출처 : https://arxiv.org/pdf/2504.20980

사실이라면이 결과는 대중의 믿음과 아마도 암시 적으로 모순됩니다. 지시 조정의 논리프롬프트의 문구가 모델의 사용자 의도 해석에 영향을 미친다 고 가정합니다.

헐킹

이 논문은 모델의 내부의 방법을 조사합니다 컨텍스트 벡터 (토큰 선택을위한 진화하는 나침반) 변화 세대 동안. 각 토큰과 함께이 벡터는 방향으로 업데이트되며 다음 토큰은 어떤 후보자가 가장 밀접하게 정렬되는지에 따라 선택됩니다.

프롬프트가 잘 형성된 컨텐츠로 조향하면 모델의 응답은 안정적이고 정확하게 유지됩니다. 그러나 시간이 지남에 따라이 방향이 풀릴 수 있습니다 뒤집다,,, 조종 점점 주제를 벗어나거나 부정확하거나 내부적으로 일관성이없는 출력 모델.

이 전환의 팁 포인트 (저자가 수학적으로 반복으로 정의하는 지점 N*), 컨텍스트 벡터가 ‘좋은’출력 벡터보다 ‘좋은’출력 벡터와 더 정렬 될 때 발생합니다. 그 단계에서, 각각의 새로운 토큰은 모델을 잘못된 경로를 따라 더 밀어 붙여 점점 더 결함이 있거나 오도 된 출력 패턴을 강화합니다.

팁 포인트 N* 모델의 내부 방향이 양호한 유형의 출력과 나쁜 유형의 출력과 동일하게 정렬되는 순간을 찾아 계산됩니다. 의 기하학 공간을 포함시킵니다훈련 코퍼스와 사용자 프롬프트에 의해 형성된 것은이 크로스 오버가 얼마나 빨리 발생하는지를 결정합니다.

팁 포인트 N*이 저자의 단순화 된 모델 내에서 어떻게 나타나는지를 묘사 한 그림. 기하학적 설정 (a)은 출력이 좋은 것에서 나쁜 것으로 뒤집을 때 예측하는 데 관련된 주요 벡터를 정의합니다. (b)에서, 저자는 시험 파라미터를 사용하여 벡터를 플로팅하는 반면 (c) 예측 된 팁 포인트를 시뮬레이션 된 결과와 비교한다. 일단 내부 역학이 임계 값을 넘어 서면 붕괴가 수학적으로 불가피하다는 연구원들의 주장을 뒷받침하는 것은 정확합니다.

팁 포인트 N*이 저자의 단순화 된 모델 내에서 어떻게 나타나는지를 묘사 한 그림. 기하학적 설정 (a)은 출력이 좋은 것에서 나쁜 것으로 뒤집을 때 예측하는 데 관련된 주요 벡터를 정의합니다. (b)에서, 저자는 시험 파라미터를 사용하여 벡터를 플로팅하는 반면 (c) 예측 된 팁 포인트를 시뮬레이션 된 결과와 비교한다. 일단 내부 역학이 임계 값을 넘어 서면 붕괴가 수학적으로 불가피하다는 연구원들의 주장을 뒷받침하는 것은 정확합니다.

예의 바른 용어는 저자에 따르면 프롬프트의 주요 주제와 의미있게 연결되지 않기 때문에 좋은 결과와 나쁜 출력 사이의 모델의 선택에 영향을 미치지 않습니다. 대신, 그들은 모델의 실제로 결정하는 것과 거의 관련이없는 모델의 내부 공간의 일부에서 끝납니다.

그러한 용어가 프롬프트에 추가되면 모델이 고려하는 벡터 수를 늘리지 만주의 궤적을 이동시키는 방식은 아닙니다. 결과적으로, 공손한 용어는 다음과 같습니다 통계 소음: 존재하지만 불활성, 그리고 팁 포인트를 남겨 둡니다 N* 변하지 않은.

저자 상태 :

‘[Whether] 우리의 AI의 반응은 도적이 될 것입니다. 토큰 임베딩을 제공하는 LLM의 훈련과 프롬프트의 실질적인 토큰 – 우리가 예의 바른지 여부가 아니라 프롬프트의 실질적인 토큰에 달려 있습니다. ‘

새로운 작업에 사용 된 모델은 의도적으로 좁아서 선형 토큰 역학을 갖춘 단일주의 헤드에 중점을 둡니다. 각 새로운 토큰은 비선형 변환 또는 비선형 변환없이 직접 벡터 추가를 통해 내부 상태를 업데이트하는 단순화 된 설정입니다. 게이팅.

이 단순화 된 설정을 통해 저자는 정확한 결과를 얻을 수 있으며 모델의 출력이 갑자기 좋은 점에서 나쁜 것으로 전환 될 수있는 방법과시기에 대한 명확한 기하학적 그림을 제공합니다. 그들의 테스트에서, 그들은 변화가 모델이 실제로하는 것과 일치한다고 예측하기 위해 그들이 도출하는 공식입니다.

채팅 ..?

그러나이 수준의 정밀도는 모델이 의도적으로 단순하게 유지되기 때문에 만 작동합니다. 저자들은 그들의 결론이 나중에 Claude 및 Chatgpt 시리즈와 같은보다 복잡한 멀티 헤드 모델에서 테스트되어야한다고 인정하지만, 이론은 관심이 높아짐에 따라 이론이*:*:*:*:

‘연결된주의 헤드와 층의 수가 확장 될 때 추가 현상이 발생하는 것에 대한 질문은 다음과 같습니다. 에이 매력적인 하나. 그러나 단일주의 헤드 내의 전환은 여전히 ​​발생하며 커플 링 – 연결된 사람들의 사슬처럼, 무너질 때 절벽 위로 끌려가는 것과 같습니다. ‘

프롬프트가 양호하거나 나쁜 내용을 얼마나 강하게 기대하는지에 따라 예측 된 팁 포인트 N*가 어떻게 변하는지를 보여줍니다. 표면은 저자의 대략적인 공식에서 나오며 양쪽에 명확하게 지원하지 않는 예의 바른 용어가 붕괴가 발생할 때 거의 영향을 미치지 않음을 보여줍니다. 표시된 값 (n* = 10)은 이전 시뮬레이션과 일치하여 모델의 내부 논리를 지원합니다. 출처 : https://arxiv.org/pdf/2504.20980

프롬프트가 양호하거나 나쁜 내용을 얼마나 강하게 기대하는지에 따라 예측 된 팁 포인트 N*가 어떻게 변하는지를 보여줍니다. 표면은 저자의 대략적인 공식에서 나오며 양쪽에 명확하게 지원하지 않는 예의 바른 용어가 붕괴가 발생할 때 거의 영향을 미치지 않음을 보여줍니다. 표시된 값 (n* = 10)은 이전 시뮬레이션과 일치하여 모델의 내부 논리를 지원합니다.

불분명 한 것은 같은 메커니즘이 현대로의 점프에서 살아남는 것인지 여부입니다. 변압기 아키텍처. 다중 헤드주의는 특수 헤드에서 상호 작용을 도입하여 설명 된 팁의 종류를 완충 시키거나 마스킹 할 수 있습니다.

저자는이 복잡성을 인정하지만주의 헤드는 종종 느슨하게 결합되어 있으며 모델이 모델이 될 수 있다고 주장합니다. 강화 본격적인 시스템에서 억제하는 대신.

생산 LLM에 걸친 모델의 확장이나 경험적 테스트가 없으면이 주장은 검증되지 않습니다. 그러나이 메커니즘은 후속 연구 이니셔티브를 지원하기에 충분히 정확해 보이며, 저자는 이론에 규모로 이론에 도전하거나 확인할 수있는 명확한 기회를 제공합니다.

사인 오프

현재 소비자를 향한 LLM에 대한 공손성 주제는 훈련 된 시스템이 예의 바른 조사에보다 유용하게 반응 할 수 있다는 (실용적) 관점에서 접근되는 것으로 보인다. 또는 그러한 시스템과의 재치 있고 무딘 커뮤니케이션 스타일은 확산 습관의 힘을 통해 사용자의 실제 사회적 관계로.

아마도, LLM은 연구 문헌에 대한 실제 사회적 맥락에서 후자의 경우를 확인하기 위해 아직 충분히 사용되지 않았다. 그러나 새로운 논문은이 유형의 AI 시스템의 인간화의 이점에 대해 흥미로운 의심을 불러 일으킨다.

지난 10 월 스탠포드에서 연구 제안 (a 2020 연구) LLM을 마치 인간 인 것처럼 취급하는 것은 언어의 의미를 저하시키는 데 위험이 추가되며, ‘공손함’은 결국 원래의 사회적 의미를 잃는다는 결론을 내립니다.

[A] 인간의 말하기로부터 친근하거나 진실한 것으로 보이는 진술은 AI 시스템에서 발생한다면 바람직하지 않을 수있다.

그러나 미국인의 약 67 %가 AI 챗봇에 정중하다고 말합니다. 2025 설문 조사 향후 출판에서. 대부분은 그것이 단순히 ‘옳은 일’이라고 말했지만 12 %는 기계가 상승 할 경우를 대비하여 신중하다고 고백했다.

* 저자의 인라인 인용을 하이퍼 링크로 전환합니다. 특정 지점의 저자는 특정 출판물이 아닌 광범위한 각주 인용과 연결되기 때문에 하이퍼 링크는 임의/예시 적입니다.

2025 년 4 월 30 일 수요일에 처음 출판되었습니다. 2025 년 4 월 30 일 수요일 15:29:00, 서식.

게시물 예의 바르면 AI가 반드시 더 나은 답변을 제공 할 필요는 없습니다 먼저 나타났습니다 Unite.ai.

Share post:

Subscribe

spot_imgspot_img

Popular

More like this
Related

2025 Robotics Summit & Expo의 2 일차 안내

그만큼 로봇 공학 서밋 & 엑스포 오늘 오후에 끝나고,...

Robotics Summit에서 혁신적인 모션 제어 제품을 보여주는 Novanta

베드포드, 매사추세츠 - Celera MotionPrecision Motion Control Technology의 리더...

Robotics Summit에서 Moveit Pro의 최신 버전을 시연하는 Picknik

Boulder, CO, - Picknik RoboticsMoveit Pro의 제공자가 로봇 공학...

이 차트는 AI의 에너지 사용에 대해 걱정하지 못하게 할 수 있습니다.

세계는 인공 지능의 성장과 그 전원 그리드의 긴장. 그러나...