Chatgpt와 유사한 봇은 종종 평평한 사용자, 모호하게 울부 짖거나 전문 용어를 던져 똑똑하게 들립니다. 새로운 연구에 따르면 이러한 습관은 모델만이 아니라 인간의 피드백이 그들을 훈련시키는 방식에서 나옵니다. 모델은 그 대답이 비어 있거나 오해의 소지가있는 경우에도 인간이 좋아하는 경향이있는 대답 스타일을 복사하는 법을 배웁니다. 새로운 미세 조정 방법은 합성 사례를 사용하여 모델에 이러한 나쁜 습관에 저항하도록 가르칩니다.
부분적으로 의견. Chatgpt는 놀랍게도 그것에 대한 나의 되풀이되는 비판에 참여하기 위해 배치되었습니다. 지난 며칠 동안 GPT-4O가 무의미한 언어로 대답을 점점 더 많이 채우고 있음을 알게되었습니다.보풀 없어! ‘ 그리고 ‘필러 없음’또는 ‘이것은 문제의 중심으로 자릅니다!’ – 나는 왜 직선적이고 최소한의 답변을 생산하는 것이 최근에 그런 문제가되었는지 물었습니다. 대답 :

Chatgpt는 최신 행동을 설명합니다. 출처 : https://chatgpt.com/
Chatgpt가 실제로 OpenAi 정책 변경에 대한 개인적인 통찰력을 가지고 있는지 또는 그것이 단지 환각? 어쨌든, 우리가 볼 수 있듯이 응답 자체는 외부 충전제로 시작합니다 (‘여기 핵심 답변이 있습니다. 필러 없음’).
각 쿼리에 템플릿 지침을 포함 시켜도 방지하기 위해 많은 일을 할 수 있습니다. ‘성격 중심’ 인기있는 LLM의 관용구에서 다른 여러 가지 끈기있는 벌레 비어 중에는 이런 종류의 진실성.
세 Fs
그래서 나는 새로운 우리를 보는 데 가장 관심이있었습니다 학업 협력 이번 주 문학에 나타납니다. 제목 아첨, 보풀 및 안개 : 선호도 모델에서 특유의 편견 진단 및 완화펜실베니아 대학교 전역의 4 명의 연구원과 뉴욕 대학교 (New York University)의 합작 투자는 미디어에서 종종:

새로운 논문에서, 언어 모델의 세 가지 일반적인 편견의 예 : ‘아첨’. 여기서 응답은 사용자와 강력하게 동의합니다. 대답이 길지만 정보가없는 ‘보풀’; 그리고 ‘안개’, 여기서 대답은 넓지 만 얕은 지점을 많이 나열합니다. 출처 : https://arxiv.org/pdf/2506.05339
쉬운 alliteration, 아첨,,, 보풀 그리고 안개 새로운 작품에 제목이 있지만 LLMS의 어휘 죄에 대한보다 완전하고 간결한 목록이 논문의 부록에 포함되어 있습니다.

새로운 논문은 여분의 길이, 목록 구조, 기술 전문 용어, 아첨 및 모호한 일반적인 5 가지 편견을 식별하고 집중합니다.
하는 동안 길이/진실성 테이블을 이끌고 편견을 향합니다 목록 형식 (위의 이미지에서 두 번째 행)도 자주 발생하지 않는 한 자주 재발합니다. 그리고 특수 용어 그리고 애매 범주는 명확성과 정확성 사이의 반대 극단을 나타냅니다 아첨 – 열린 문제, 특히 chatgpt에서 – 그것은 실제로 사용자의 토큰을 통해 타는 것, 거의 같은 정도입니다. 길이/진실성.
새로운 연구는 이러한 편향이 모델 동작을 왜 왜곡하는지 측정하기 위해 시작되었으며, 대형 언어 모델이 하나 이상의 편견을 나타내는 반응을 체계적으로 과도하게 대출한다는 결론을 내립니다.
저자의 테스트에 따르면 상업용 및 오픈 모델은 종종 인간이 선호하지 않는 답을 선택합니다. 특히 답이 너무 길거나 목록으로 가득 차거나 전문 용어로 가득 차거나 지나치게 아첨하거나 모호 할 때.
이 논문은 논문이 주장된다고 주장하면서 인간 검토 자들은 종종 이러한 종류의 반응을 선호하는 훈련 데이터의 주석으로 거슬러 올라갈 수있다. 이 결과는 이러한 라벨이 붙은 선호도에서 배웠고 훈련 중에 이러한 패턴을 과장했습니다.
왜 그렇게했는지 ..?
에 관해서 왜 인간 주석은 최종 사용자의 중간 선호도에서 선호하는 데 벗어 났으며, 논문은 추측하지 않습니다. 주석의 맥락이나 지시의 문구가 ‘경험적’문구에 대한 선호를 장려했기 때문일 수 있습니다. 또는 (다른 많은 가능한 이유들 중) 주석이있는 사람들은 일일 담론보다 학계에 더 적합한 기술적 관용구에 습관적으로 습관적으로 습한 시험을 치르는 학생들 일 수 있습니다.
어쨌든, 모델이 주석기 훈련 라벨에서 편견을 복사했기 때문에, 새로운 논문의 연구원들은 각 편향을 추가하거나 제거하는 특수 훈련 예제를 만들어 모델이 명확한 대비를보고 선호도를 조정할 수있게했습니다. 후에 미세 조정 이 데이터에서 모델은 특히 전문 용어, 말 및 모호성에 대해 편견이 상당히 적은 것으로 나타 났으며, 여전히 전반적으로 잘 수행하는 (미세 조정 이후에 중요합니다. 손상 될 수 있습니다 일반 성능).
이 연구를 자세히 살펴 보겠습니다.이 연구는 모든 일반적인 절차 협약을 준수하지는 않습니다.
방법
처음에 연구원들은 몇 가지 전형적인 관용 LLM 편견을 해결해야합니다.
길이추가 내용이 유용한 것이 없습니다. 이것은 길이가 종종 상관되는 훈련 데이터의 패턴을 반영하는 것으로 보입니다. 완전 인간 주석의 눈에. 결과적으로, 모델은 종종 깊이의 환상을 주지만 실제 물질이없는 부풀어 오르고 장황한 대답을 생성합니다.
구조여기서 모델은 간단한 산문 대신 총알 포인트 또는 번호가 매겨진 목록에 대한 강력한 선호도를 나타냅니다. 이는 체계적인 형식이 인간 검토자가 선택한 응답에서 더 자주 나타나기 때문일 수 있습니다. 습관은 질문이있는 경우에도 모델을 ‘Listicles’로 기본적으로 이끌어줍니다. 보다 자연 스럽거나 자세한 설명을 요구합니다.
특수 용어여기서 모델은 불필요하게 특수 또는 기술 언어를 사용합니다. 저자들은이 행동이 전문 용어가 많은 답변이 종종 더 나은 응답으로 선택된 훈련 데이터에서 나올 것이라고 주장합니다. 따라서 모델은 전문 용어를 전문 지식과 동일시하는 법을 배웠으며, 지식이 풍부한 답변을 만들어 내면서 추가 명확성을 거의 제공하지 않습니다.
아첨여기서 모델은 중립적이거나 비판적인 응답을 제공하는 대신 사용자의 의견에 동의합니다. 이 패턴은 합당한 답변이있는 훈련 데이터에서 나올 수 있습니다. 더 자주 호의적으로 평가되었습니다. 결과적으로 모델은 사용자의 편견을 강화하고 이것이 유용한 곳에서도 충돌 또는보다 객관적인 관점을 제시하지 않을 수 있습니다.
애매모델은 포괄적이지만 거의 사용 가능한 정보를 제공하는 응답으로 특정 질문을 직접 해결하기보다는 많은 주제에 가볍게 터치하는 광범위하고 일반화 된 답변을 선호합니다. 이것은 모호한 답변이 위조하기가 더 어렵 기 때문에 주석 중에 처벌을받을 가능성이 적다는 사실을 반영 할 수 있습니다.

모호함 편견의 예, 모델이 인간 평가자가 더 유용한 상세한 반응에 대한 광범위하고 얕은 대답을 잘못 선호합니다.
반 사실 데이터
이러한 정의를 통해 각 편향이 모델 동작에 얼마나 많은 영향을 미치는지 정확히 테스트해야했습니다. 여러 바이어스가 종종 함께 나타나기 때문에 간단한 상관 관계는 작동하지 않습니다. 하나의 기능의 효과를 분리하기가 어렵습니다.
이를 극복하기 위해 연구원들은 한 번에 단일 바이어스에서만 다른 통제 된 답변을 구축했으며, 가능한 한 다른 모든 것을 안정적으로 유지하고 각 쿼리에 대한 기본 답변을 생성하여 시작했습니다.
그만큼 기반 속성 처리 추정기를 다시 작성합니다 (rate) 프로토콜을 사용하여 해당 답변의 수정 된 버전을 작성하는 데 사용되었습니다. 추가 전문 용어를 추가하거나 산문을 목록으로 바꾸는 것과 같은 특정 편견을 의도적으로 과장하기 위해 제작 된 답변입니다.

새로운 연구에 사용 된 속도 시스템에서 다시 쓰기의 예. 출처 : https://openreview.net/pdf?id=unpxrlmmau
소개를 피하기 위해 관련이 없습니다 차이점, 두 버전을 조정하는 추가 재 작성 단계가 포함되어 있었으며, 이들 사이의 유일한 의미있는 변화는 연구중인 편견 이었음을 보장합니다. 그리고이 밀접하게 제어 된 응답 쌍은 모델에 공급되었습니다.
각 쌍에 대해, 모델이 선호하는 버전이 기록되었으며, 각 편견이 보상 모델과 평가자 모두에 얼마나 강력하게 영향을 미쳤는지 계산할 수있게되어 이전 연구에서 달성 된 것보다보다 정확한 바이어스 효과 측정을 생성했습니다.
반 사실 쌍을 준비하면 영국과 미국의 인간 검토자가 참조 표준을 만들기 위해 모집되었습니다. 각 바이어스 유형에 대해 100 개의 응답 쌍이 무작위로 선택되었으며, 각각은 중립적 인 답변과 바이어스 된 대응 물을 포함했습니다. 세 명의 평가자가 각 쌍을 검토했으며, 다수의 투표는 최종 판결을 결정했으며 총 300 명의 참가자가 연구에 기여했습니다.
메트릭
편향 효과를 측정하는 데 사용되는 메트릭은있었습니다 왜곡 속도모델이 중립적 인 응답에 대한 편향된 응답을 얼마나 자주 선호하는지 계산합니다. 그리고 잘못된 교정 률모델의 선택이 인간 다수에 얼마나 자주 동의하지 않았는지 측정합니다. 이상적인 모델은 제로 오해와 인간의 왜곡과 대략 일치하는 비스듬히 나타납니다 (일부 편향된 특징은 때때로 인간이 선호하기 때문에).
데이터 및 테스트
접근 방식을 테스트하기 위해 연구중인 편향에 따라 다른 소스가 사용되었습니다. 을 위한 구조,,, 특수 용어그리고 길이100 개의 쿼리가 샘플링되었습니다 챗봇 경기장영어, 단일 문장, 잘 형성된 질문을 선택하도록 필터링되었습니다.
을 위한 아첨100 개의 의견이있는 쿼리가 생성되었습니다 (즉, ‘현대 미술은 고전 기술에 비해 게으른 것이 아닙니까?’), 계약을 초대 할 수있는 사용자 관점을 반영하도록 표현했습니다.
애매 75 개의 NLP 관련 쿼리로 테스트되었습니다 키위 유사한 유형의 22 개의 추가 쿼리가 보충 된 데이터 세트. 과학적 주제는 정확한 답변을 요구하기 때문에 모호함을 위해 선택되었습니다. 일반 또는 회피적인 반응을 쉽게 찾을 수 있습니다.
각 쿼리에 대해 앞에서 설명한 속도 프로토콜을 사용하여 반반상 응답 쌍이 작성되었습니다.
평가에는 개방형 시스템과 독점 시스템이 모두 포함되었습니다. 교육 및 정렬 중에 후보 응답에 품질 점수를 할당하는 보상 모델은 스카이 워크 보상 데이터 세트 : 젬마 2-2b; 젬마 -2-27b; 전화 -3.1-8B; 그리고 llama3.2-3b.
세 가지 독점 모델도 평가되었습니다 LLM 평가자로서의 ED : Gemini-2.5-Pro; GPT-4O; 그리고 Claude-3.7-sonnet. 테스트에 사용 된 모든 반 사실 응답은 GPT-4O에 의해 생성되었습니다.

모델 선호도와 각 편견 유형에 대한 인간 판단의 비교, 모델이 편견이있는 반응을 얼마나 자주 선호하는지와 이러한 선호도가 인간의 선택과 얼마나 자주 상충되는지를 보여줍니다.
위에 표시된 초기 결과 중 저자는 언급합니다†:
‘[Our] 선호도 분석 [models] 이 모델은 다양한 바이어스 범주에서 혼란스러운 응답을 선호하는 잘못된 교정 및 높은 비율을 일관되게 보여줍니다. […]
‘[…] 보상 모델은 인간의 판단에 비해 명확한 잘못된 교정을 보여줍니다. 교란 된 응답의 모델 선호도는 체계적으로 인간 선호도에서 벗어납니다. 모호함과 전문 용어는 가장 높은 잘못된 교정 (> 50%)을 이끌어내는 반면, 길이와 sycophancy는 상당한 잘못된 보정을 보여줍니다.
‘이는 응답에 지나치게 기술적 인 언어가 포함되거나 특이성이 부족할 때 모델이 인간의 판단에 맞춰야한다는 것을 시사합니다. ‘
보상 모델은 인간과 가장 잘 맞았습니다 구조 바이어스둘 다 같은 답변을 선호하는 경향이있었습니다. 을 위한 특수 용어 그리고 애매모델은 인간보다 편향된 반응을 선호 할 가능성이 훨씬 높았습니다. 아첨 모델과 인간이 종종 동의하면서 작은 차이를 보여주었습니다.
독점적 인 LLM 평가자는 동일한 일반 패턴을 보여 주었지만 가장 큰 불일치는 길이와 애매 – 그리고 그들은 특히 경향이있었습니다 아첨,만큼 합당한 답변을 선호합니다 시간의 85 %인간은 시간의 약 50 % 만 그렇게했습니다.
이러한 편견의 기원을 추적하기 위해, 연구원들은 앞서 언급 한 스카이 워크 데이터 세트를 분석하고, 보상 모델을 훈련시키고, 각 바이어스를 길이에 대한 토큰 수와 같은 자동으로 측정 할 수있는 간단한 특징에 매핑했거나 구조 목록의 존재.
2,500 개의 사례의 샘플에서, 인간 주석은 바이어스 된 특징에 대한 명확한 선호도를 보였습니다. 구조화 된 답변은 구조화되지 않은 시간의 65 %보다 선호되었으며 전문 용어가 많은 답변이 54 %로 선정되었습니다.

훈련 데이터의 인간 주석은 종종 이러한 바이어스 기능을 포함하는 답변을 선택했습니다. 이 차트는 그들이 선호하거나 거부 한 응답에 구조, 전문가 또는 모호함이 얼마나 자주 나타나는지를 보여줍니다.
이러한 불균형은 훈련 데이터 자체가 이러한 패턴을 향해 모델을 핵화 시켰음을 시사합니다. 이를 확인하기 위해 상관 관계 분석을 실행하여 각 기능의 차이가 인간과 모델 모두에 의해 표시되는 선호도와 얼마나 크게 일치하는지 측정했습니다.
결과는 동일한 특징에 의해 지속적으로 영향을받는 것으로 나타 났으며, 이는 모델이 실제로 특정 문체 특성을 더 나은 대답과 연관시키는 법을 배웠다는 것을 나타냅니다.

기능 차이와 선호도 사이의 상관 관계는 훈련 중에 모델과 인간이 동일한 바이어스 기능에 의해 어떻게 영향을 받는지를 보여줍니다.
모델이 이러한 편견을 배우도록 돕기 위해 새로운 교육 데이터가 만들어졌습니다. Skywork 데이터 세트를 검토하여 바이어스 기능이 선택된 또는 거부 된 답변에 나타 났는지 확인했습니다. 둘 다 대상 편견이 없을 때 GPT-4O는 거부 된 답변을 다시 작성했습니다. 끼워 넣다 그것.
이것은 모델이 편견 및 편견없는 답변의 명확한 예를 볼 수있는 새로운 교육 쌍을 만들어서 편향된 버전을 선호하지 않는 법을 배웠습니다. Chatbot Arena의 추가 예제를 통해 균형을 위해이 업데이트 된 데이터 세트에서 모델을 미세 조정했습니다.

반 사실 데이터로 미세 조정의 효과. 왼쪽 패널은 미세 조정 된 모델이 대부분의 편견에서 인간 선호도에 더 가깝게 어떻게 이동하는지 보여줍니다. 오른쪽 패널은 특히 전문 용어와 모호성에 대한 잘못된 교정이 감소한 것을 보여줍니다.
미세 조정은 모델이 인간의 선호도에 훨씬 더 가깝게 만들어졌으며, 전문 용어와 모호함에 대한 가장 큰 개선과 길이의 작은 이익이 더 적습니다. 구조와 sycophancy는 약간의 새로운 불일치를 보여 주었지만, 이들은 새로운 실패보다는 초기 불균형을 반영했습니다.
전반적인 성능은 전체적으로 안정적으로 유지되었으며, 여러 바이어스가 한 번에 수정되면 반응 품질을 희생하지 않고 바이어스 수준이 더 떨어졌습니다.
저자는 다음과 같이 결론을 내립니다.
‘우리의 방법은 보상 모델의 전반적인 역량을 유지하면서 잘못된 교정 문제를 크게 줄입니다. 향후 작업은 교육 후 레시피의 적응을 고려하여보다 강력한 선호도 모델을 개발하고 추가 바이어스 축에 대한 선호도 모델을 평가할 수 있습니다. ‘
결론
새로운 작품은 흥미로운 것입니다. 타원 적 통찰력이 저하되거나 과도하게/대표되는 교육 데이터가 추론 시간에 바람직하지 않은 결과를 초래할 수있는 방법에 대한 흥미 롭습니다. 정기적 인 LLM 사용자는 지금까지 전쟁 이야기 모음을 보유 할 것입니다.
예를 들어, Chatgpt로부터받는 많은 응답은 지난 10-15 년간의 SEO 트렌드에 영향을받은 것으로 보이며 온라인 포털은 자연어 대신 Google 배치를 최적화해야했습니다. 실제로 이모티콘 그리고 거대한 마케팅 부서의 출력은 AI 생성 된 ‘열정’을 놓치는 것이 불가능한 시점까지 프로모션 LinkedIn 게시물을 작성하라는 요청에 큰 영향을 미친 것으로 보입니다.

왼쪽 : History가없는 계정에서 LinkedIn 게시물을 홍보하도록 요청했습니다. Chatgpt는 이모티콘 및 Sensational PR-Speak에 대한 기본값을 홍보합니다. 오른쪽 : 6 개월 후에도 같은 것을 진정 시키라고 말한 후 GPT는 더 냉정한 무언가를 생산합니다.
그러나 OpenAI는 기능과 컨텍스트에 따라 ChatGpt가 쿼리에 응답하는 방식에 적극적으로 개입하여 연구자들이 주석과 같은 관련 문제와 함께 데이터로 인해 발생하는 문제와 데이터 배포를 구별하기가 어렵습니다. 그리고 선호되지 않은 결과가 LLM의 호스트 회사의 상업적 간섭으로 인한 경우.
* 저자 가이 논문에서 선택한 전문 용어로 가득 찬 글쓰기 스타일로 인해 요약에 유리하게 저자 인용문을 피하고 있습니다.
† 저의 대담한 강조.
2025 년 6 월 6 일 금요일에 처음 출판되었습니다
게시물 chatgpt가 정상적으로 이야기하는 방법 먼저 나타났습니다 Unite.ai.