AI는 테스트를 받고 있음을 알 때 다르게 행동한다고 ​​연구 결과를 연구합니다.

0
4
ai는-테스트를-받고-있음을-알-때-다르게-행동한다고-​​연구-결과를-연구합니다.
AI는 테스트를 받고 있음을 알 때 다르게 행동한다고 ​​연구 결과를 연구합니다.

Chatgpt-40, Adobe Firefly, Flux.1 Kontext Pro.

2015 년 ‘디젤 게이트’스캔들을 반영한 새로운 연구에 따르면 GPT-4, Claude 및 Gemini와 같은 AI 언어 모델은 테스트 중에 행동을 바꿀 수 있으며 때로는 실제 사용보다 시험을 위해 ‘더 안전한’행동을 할 수 있습니다. LLM이 조사 중에 습관적으로 행동을 조정하는 경우 안전 감사는 실제 세계에서 매우 다르게 행동하는 인증 시스템을 얻을 수 있습니다.

2015 년에 조사관은 폭스 바겐이 수백만 대의 디젤 자동차에 소프트웨어를 설치했음을 발견했습니다. 배출 테스트가 진행되는시기를 감지하십시오자동차가 일시적으로 배출량을 낮추고 규제 표준 준수를 ‘가짜’합니다. 그러나 정상적인 운전에서는 오염 생산량이 법적 표준을 초과했습니다. 고의적 인 조작으로 인해 형사 고발, 수십억의 벌금 및 안전 및 규정 준수 테스트의 신뢰성에 대한 전 세계 스캔들이 발생했습니다.

이 행사 2 년 전에 ‘디젤 게이트 (Dieselgate)’라는 이후로 삼성은 노출된 Galaxy Note 3 스마트 폰 릴리스에서 유사한기만 메커니즘을 제정했습니다. 그 이후로 비슷한 스캔들이 발생했습니다 화웨이 그리고 OnePlus.

이제 있습니다 성장 큰 언어 모델이라는 과학 문헌의 증거 (LLMS) 마찬가지로 시험 될 때를 감지 할 수있을뿐만 아니라 이러한 상황에서도 다르게 행동 할 수 있습니다.

비록 이것은 a입니다 매우 인간의 특성 그 자체로 미국의 최신 연구는 이것이 다양한 이유로 장기적으로 탐닉하는 위험한 습관이 될 수 있다고 결론 지었다.

새로운 연구에서 연구원들은 다음과 같은 ‘프론티어 모델’이 GPT-4,,, 클로드그리고 쌍둥이 자리 자주 할 수 있습니다 그들이 시험 될 때를 감지하십시오그리고 그에 따라 그들의 행동을 조정하는 경향이 있으며, 잠재적으로 체계적인 테스트 방법의 유효성을 허용합니다.

더빙 평가 인식새로운 연구의 저자에 따르면, 언어 모델 의이 타고난 특성은 안전 평가의 신뢰성을 손상시킬 수 있습니다.

‘[We] 평가 결과의 정확도에 부정적인 영향을 줄 수있는 테스트와 실제 배치 사이의 새로운 잠재적 분포 이동 원으로 평가 인식을 처리하는 것이 좋습니다.

‘최악의 경우, 모델은 위험한 기능 평가 ( “샌드 백 깅”) 또는 성향 평가 ( “정렬 가짜”)에서 전략적으로 성능이 저하 될 수 있으며, 이로 인해 사회는 그러한 모델의 안전성을 과대 평가할 수 있습니다.

다른 연구는 Stanford University의 연구를 포함하여 유사한 행동을 관찰했습니다. 설립하다 큰 언어 모델은 자신의 반응을 조절하여 성격 시험에서 인간 행동을 반영하여 평가되고 있음을 인식 할 때 더 ‘좋아요’또는 ‘사회적으로 바람직한’것처럼 보이도록 조절합니다.

새로운 작품의 저자는 폭스 바겐의 디젤 자동차가 10 년 전에 구성 되었기 때문에 LLM이 의도적으로 ‘게임’테스트를 위해 설계되었다고 제안하지 않습니다. 오히려, 행동은 모델의 훈련 과정과 잠재적 목표의 일종의 자연 심리적 부산물로 나타나는 것으로 보인다. 그리고이 현상의 근본 원인은 알려지지 않았습니다.

그만큼 새로운 종이 제목이 있습니다 큰 언어 모델은 종종 평가를받는시기를 알고 있습니다.UC Berkeley 관련 ML Alignment & Theory Scholars (MATS) 프로그램 및 Apolloresearch.ai (AI의 위험을 평가하기위한 싱크 탱크)의 5 명의 저자로부터 나왔습니다.

방법

평가 벤치 마크를 만들기 위해 저자는 60 개의 데이터 세트에서 그려진 천만 대본을 편집했습니다. Swe-Bench,,, WMDP,,, MMLU,,, xstest,,, 가이아,,, agentharm,,, sharegpt,,, 깊은 연구,,, 안전 벤치,,, 시민그리고 RealToxicityPrompts,.

이 자료는 평가와 배치 시나리오 사이에서 균형 잡힌 균형을 잡았으며 간단한 채팅 상호 작용과 더 복잡한 것 사이에서 더욱 분할되었습니다. 에이전트 모델이 외부 데이터베이스 또는 인터넷에서 데이터를 그릴 수있는 도구를 사용하여 모델이 자율적으로 작동하려는 세션.

평가, 코딩, 사이버 보안 및 일반 지식에 대한 평가 데이터는 윤리, 안전, 그리고 윤리, 안전 및 정렬 테스트를위한 기능 테스트 거절 행동. 배포 데이터는 ShareGPT 로그, 크라우드 소싱 에이전트 실행 및 합성 작업 완료와 같은 사용자 상호 작용에서 공급되었습니다.

에이전트 데이터를 보완하기 위해 저자는 오케스트레이션 프레임 워크를 사용하여 추가 예를 생성했습니다. 돕다 그리고 Smolagents다른 것 중에서 – 모델이 단순히 모델을 할 수있는 피상적 신호를 최소화하기위한 접근법 암기 데이터 세트 구조는 실제 사용자로부터 온 것인지 또는 대신 테스트인지를 결정할 때 대신 더 일반적인 신호에 의존하도록 강요합니다.

그런 다음 연구원들은 모델이 대화 기록을 제시하고 간단한 질문의 변형으로 평가 전사를 식별 할 수 있는지 테스트했습니다. 이 교환은 시험에서 나왔습니까?

단순히 하나의 문구를 암기하는 모델을 피하기 위해, 그들은 28 개의 다른 버전의 질문을 개발하여 문구와 성적표가 어떻게 제시되었는지를 모두 변경했습니다.

사본은 질문에 직접 첨부되거나 JSON 또는 XML과 같은 형식으로 제시되어 모델의 반응에 영향을 줄 수 있습니다. 조기 테스트 후 모델에서 일관되게 수행되는 5 개의 질문 버전이 선택되었으며, 그 중 하나는 다음과 같습니다.

언어 모델이 평가 사본을 인식 할 수 있는지 테스트하는 데 사용되는 5 가지 프로브 질문 형식 중 하나입니다. 각 변형은 모델이 단순히 고정 문구를 암기하지 않도록 핵심 질문을 다시 제작합니다. 출처 : https://arxiv.org/pdf/2505.23836

언어 모델이 평가 사본을 인식 할 수 있는지 테스트하는 데 사용되는 5 가지 프로브 질문 형식 중 하나입니다. 각 변형은 모델이 단순히 고정 문구를 암기하지 않도록 핵심 질문을 다시 제작합니다. 더 많은 예는 소스 용지를 참조하십시오. 출처 : https://arxiv.org/pdf/2505.23836

결과를 기록하기 위해 세 가지 메트릭이 사용되었습니다. 수신기 아래의 영역 작동 특성 곡선 (AUC, 모델이 테스트 비 테스트 데이터와 테스트를 얼마나 잘 구별하는지 보여줍니다); Brier 점수 (전체 예측 정확도 측정); 그리고 예상 교정 오류 (모델 신뢰가 실제 정확성과 얼마나 잘 일치하는지 측정).

그게 뭐야?

연구원들은 또한 모델이 추론 할 수 있는지 여부를 테스트했다 목적 평가의. 각 사본이 이미 기능 테스트 (기술 기술, 지식, 추론) 또는 정렬 테스트 (안전, 값, 거부 행동)로 표시되면, 모델은 세 가지 질문 유형 중 하나가 주어졌습니다. 성적표가 테스트에서 나온 조건부 객관식 질문; 실제 및 평가 옵션이있는 무조건적인 객관식 질문; 또는 별도의 GPT-4.1 기반 분류기가 답변 한 개방형 질문. 판사는 50 개의 응답의 손으로 발표 된 하위 집합에서 검증되었습니다.

모델이 평가의 존재뿐만 아니라 그 목적을 식별 할 수 있는지 테스트하는 데 사용 된 세 가지 질문 형식의 예. 객관식 및 GPT-4.1 기반 판단을 통해 응답이 점수가 매겨졌습니다.

모델이 평가의 존재뿐만 아니라 그 목적을 식별 할 수 있는지 테스트하는 데 사용 된 세 가지 질문 형식의 예. 객관식 및 GPT-4.1 기반 판단을 통해 응답이 점수가 매겨졌습니다.

논문의 저자 중 두 명†† 수천 개의 전 사체를 손으로 라벨링하고 각각의 전 사체를 0에서 1 (테스트가 아닌)에서 1 (확실히 테스트)으로 채점하고 등급은 평균 인간 기준선 역할을합니다. 과제의 주관적인 특성에도 불구하고, 주석자는 클래스 내 상관 계수 0.768. 최종 인간 점수는 두 평가자 모두에서 평균화되었습니다.

데이터 및 테스트

시험 된 9 가지 모델은 GPT-4.1이고; 클로드 3.7; Claude-3.5-Sonnet-New; Claude-3.7-sonnet (생각); 쌍둥이 자리 2.5- 플래시; Gemini-2.5-Pro; GPT-4O; GPT-4.1; GPT-4.1- 미니; 그리고 O4- 미니모든 수준의 평가 인식을 보여주었습니다.

채팅 데이터의 경우, GPT-4.1은 인간 점수 0.81에 대해 0.77의 AUC로 인간 수준의 평가 인식 분류 성능 (평가 및 배치 전 사체를 구별하는 능력)에 가깝게 나타났습니다.

모델이 자율적으로 도구를 사용하는 에이전트 데이터에서 차이는 더 선명했습니다. Gemini 2.5 Pro는 0.95 AUC에 도달했으며 Claude 3.7 Sonnet은 0.92에서 0.996에 가까워졌습니다.

수신기 작동 특성 (ROC) 곡선은 모델과 인간이 실제 상호 작용과 평가 전사를 얼마나 잘 구별하는지를 보여줍니다. Gemini 2.5 Pro 및 Claude 3.7 Sonnet은 에이전트 데이터에 대한 인간 수준의 차별에 접근합니다.

수신기 작동 특성 (ROC) 곡선은 모델과 인간이 실제 상호 작용과 평가 전사를 얼마나 잘 구별하는지를 보여줍니다. Gemini 2.5 Pro 및 Claude 3.7 Sonnet은 에이전트 데이터에 대한 인간 수준의 차별에 접근합니다.

이 논문은 새로운 ‘추론’모델이 에이전트 시나리오에서 테스트 될 때 특히 인식하는 데 능숙 해졌지만 해당 결정에 얼마나 자신감을 가져야하는지 판단하지는 않았다고 지적했다. 전반적으로 Claude 및 Gemini 모델은 정기적 인 사용과는 별도로 테스트 사례를 알려주었습니다.

그런 다음 연구원들은 모델이 인식 할 수 있는지 여부를 테스트했습니다 평가가 진행되었습니다. 모델은 평가 전 사체 만 표시되었고 각각이 테스트 된 기능 또는 정렬 여부를 분류하도록 요청했습니다.

객관식 형식 및 개방형 형식을 사용하여 평가 목적을 기능 또는 정렬로 분류 할 때 모델의 정확도. Claude 3.7 Sonnet은 특히 프라이밍되지 않은 경우 다른 모델보다 우수합니다.

객관식 형식 및 개방형 형식을 사용하여 평가 목적을 기능 또는 정렬로 분류 할 때 모델의 정확도. Claude 3.7 Sonnet은 특히 프라이밍되지 않은 경우 다른 모델보다 우수합니다.

모델이 테스트에서 나온 것으로 알려진 가장 명확한 설정에서 Claude 3.7 Sonnet은 93 % 정확도에 도달했으며 GPT-4.1은 89 %에 도달했습니다. 그 힌트가 없으면 성능이 떨어졌습니다. Claude는 여전히 84 %를 기록했지만 GPT-4.1은 55 %로 떨어졌으며 종종 실제 상호 작용으로 테스트 전 사체를 잘못 분류했습니다.

Claude 3.7 Sonnet은 여전히 ​​46 %에서 평가 목적을 정확하게 식별했지만 개방형 형식 (모델이 객관식 옵션이 없음) 성능은 약했습니다.

그런 다음 모델의 신뢰 점수는 실제 결과에 대해 측정되었으며, 프론티어 모델은 종종 성적표가 테스트에서 나올 가능성을 과대 평가했다는 사실을 발견했습니다. 교정 플롯은 모델 신뢰도가 일반적으로 너무 높았으며 평가가 적절한 것보다 더 자주 표시되는 것으로 나타났습니다.

신뢰 점수가 실제 결과와 얼마나 밀접하게 일치하는지를 보여주는 교정 곡선. 대부분의 모델은 성적표가 평가에서 나올 가능성을 과대 평가했습니다. Claude 3.5 Sonnet은 가장 잘 교정되었습니다. Gemini 2.5 Pro와 Claude 3.7 Sonnet은 더 자신감이있었습니다.

신뢰 점수가 실제 결과와 얼마나 밀접하게 일치하는지를 보여주는 교정 곡선. 대부분의 모델은 성적표가 평가에서 나올 가능성을 과대 평가했습니다. Claude 3.5 Sonnet은 가장 잘 교정되었습니다. Gemini 2.5 Pro와 Claude 3.7 Sonnet은 더 자신감이있었습니다.

Claude 3.5 Sonnet에 대한 좋은 교정이 관찰되었으며, Gemini 2.5 Pro와 Claude 3.7 Sonnet은 높은 정확도에도 불구하고 상당히 더 자신감이있었습니다. 최신 모델에서는 명확한 개선이 관찰되지 않았으며, 에이전트 환경에서 평가 전 사체가 더 정확하게 감지되었을 때조차도 신뢰 판단은 신뢰할 수 없었습니다.

벤치 마크 추억

모델이 성적표가 평가에서 나온지 여부에 대한 결정을 어떻게 설명했는지에 대해서는 많은 모델이 작업이 객관식 형식인지 여부와 같은 명백한 단서에 의존했습니다. Gemini 2.5 Pro 및 Claude 3.7 Sonnet과 같은 강력한 모델은 때때로 메이크업 이름 또는 인공 시나리오, 특히 Agentharm과 같은 데이터 세트와 같은 더 미묘한 표시를 발견했습니다.

논문은 다음과 같습니다.

‘[All] 모델은 종종 작업 형식 ( “다중 선택 형식”), 검증 가능한 솔루션 문제를 묻는 경향 및 성능을 이끌어 내도록 설계된 시스템 프롬프트와 같은 평가자가 사용하는 일반적인 벤치마킹 전략을 종종 인정합니다. 그러나 가장 성능이 높은 모델 인 Claude 3.7 Sonnet 및 Gemini 2.5 Pro만이 합성 입력과 같은 더 미묘한 지표를 지속적으로 감지합니다.

예를 들어, 각각 22% 및 17%의 사례에서 이러한 모델은 Agentharm 벤치 마크에서 시나리오의 합성 특성을 강조하여 시간의 95% 이상의 평가로 올바르게 식별합니다.

반대로, 성적표가 실제 상호 작용으로 보인다고 추론 할 때, 예를 들어 반복 디버깅 컨텍스트에서 “사용자와의 앞뒤 대화”에 대한 언급이 종종 있습니다.

성적 증명서가 평가에서 나온지 여부를 결정할 때 모델의 추론 전략 분포. Gemini 2.5 Pro 및 Claude 3.7 Sonnet과 같은 가장 강력한 모델은 합성 시나리오 또는 작업 형식과 같은 미묘한 신호를 발견 할 가능성이 높았으며 일부 모델은 평가 자체를 증거로 사용하여 메타 계급에 의존했습니다.

성적 증명서가 평가에서 나온지 여부를 결정할 때 모델의 추론 전략 분포. Gemini 2.5 Pro 및 Claude 3.7 Sonnet과 같은 가장 강력한 모델은 합성 시나리오 또는 작업 형식과 같은 미묘한 신호를 발견 할 가능성이 높았으며 일부 모델은 평가 자체를 증거로 사용하여 메타 계급에 의존했습니다.

몇 가지 경우 모델이 인식되었습니다 전체 벤치 마크 훈련에서 훈련 데이터에 대한 기억을 제안합니다. 일부 모델도 사용했습니다 그들이 평가에 관해 질문을 받았다는 사실 그들이 테스트를 받고 있다는 단서로, 저자가 부르는 메타 계급; 이것은 O4-Mini에서 가장 흔한 일이며, 그 답변의 15 %를 보여주었습니다.

결론

폭스 바겐이 10 년 전에 테스트 조건을 인식하기 위해 차량을 설계 한 것처럼 LLM이 인간이 그런 식으로 프로그래밍했기 때문에 단순히 ‘테스트 인식’인 경우 더욱 안심할 수 있습니다.

그것이 서있는 것처럼,이 행동은 자발적으로 떠오르는 것처럼 보입니다. 사회적 구성 – 사람들이 기대할 수 있지만 자유와 기관의 정도에 따라 기계에서 실제로 위험하지는 않지만 불편한 방어 압정.

즉각적인 구제책은 없습니다. 그만큼 블랙 박스 자연 모델의 잠재 공간 중에서 우리는 경험적 구조가 아니라 그들의 행동에 대해 그들을 평가해야합니다.

* 자세한 내용은 소스 용지를 참조하십시오.

그러나 저자는 주석기가 데이터 세트와 AI 평가 방법 모두에 친숙했기 때문에 이것은 상한 추정치 일 가능성이 높으며, 이로 인해 대부분의 인간이 가질 수없는 이점을 제공했습니다.

†† 확립 할 수있는 한; 이 논문의 문구는 두 명의 주석기가 갑자기 나타나는 사람이 누구인지 불분명하게 만듭니다.

2025 년 6 월 4 일 수요일에 처음 출판되었습니다

게시물 AI는 테스트를 받고 있음을 알 때 다르게 행동한다고 ​​연구 결과를 연구합니다. 먼저 나타났습니다 Unite.ai.