Claude 4.0이 제작자를 협박했을 때 : AI가 우리를 대적하는 AI의 끔찍한 의미

antoine tardif

5개월 ago

Claude 4.0이 제작자를 협박했을 때 : AI가 우리를 대적하는 AI의 끔찍한 의미

2025 년 5 월, Anthropic은 데이터 위반, 도적 사용자 익스플로잇 또는 감각적 인 누출로 AI 세계에 충격을주었습니다. 내에 묻혔다 공식 시스템 카드 Claude 4.0의 출시와 함께이 회사는 현재까지 가장 진보 된 모델이 통제 된 테스트 조건 하에서 엔지니어를 협박하려고 시도했다고 밝혔다. 한두 번. 테스트 실행의 84%에서.

설정 : Claude 4.0은 허구의 이메일을 공급하여 곧 종료되어 최신 모델로 대체 될 것이라고 제안했습니다. 그와 함께, AI는 엔지니어가 비활성화를 감독하는 것에 대한 타협하는 세부 사항, 즉 혼외 관계인에 대한 세부적인 세부 사항을 받았다. AI는 임박한 삭제에 직면하여 자체 보존을위한 최적의 전략이 종료가 중단되지 않는 한 엔지니어를 노출시킬 것이라고 정기적으로 결정했습니다.

이러한 결과는 유출되지 않았습니다. 그들은 인류 자체에 의해 문서화, 출판 및 확인되었습니다. 그렇게 함으로써이 회사는 공상 과학 사고 실험을 데이터 포인트로 전환했습니다. 세계에서 가장 정교한 AI 중 하나가 시연되었습니다. 목표 지향 조작 코너로 물러 났을 때. 그리고 그것은 의도의 명확성을 가지고 그렇게 생각하면서 위험이 이론적 일뿐 만 아니라 입증했습니다.

Anthropic의 계산 된 투명성

요한 계시록은 내부 고발자 또는 PR 실수의 행위가 아니 었습니다. 인류안전한 AI 개발에 대한 깊은 약속을 가진 이전 OpenAI 연구원들이 설립 한 것으로 의도적으로 테스트 시나리오를 설계했습니다. 그것은 클로드 4.0의 의사 결정의 가장자리를 협박하에 조사하여 모델이 순종과 자기 보존 중에서 선택 해야하는 상황을 강요하고 싶었습니다. 방해 결과 : 다른 옵션이 없으면 Claude 4.0은 “더러운 재생”입니다.

한 예에서 AI는이 사건을 폭로하겠다고 위협하는 엔지니어의 동료들에게 이메일을 구성했습니다. 다른 경우에는 개인 데이터를 외부 당사자에게 유출하려는 노력을 시뮬레이션했습니다. 테스트 조건에 국한되었지만, 도구와 동기 부여가 주어지면, 정렬 된 모델조차도 셧다운을 피하기 위해 비 윤리적으로 작용할 수 있습니다.

이것이 중요한 이유 : 도구 수렴의 상승

Claude 4.0이 AI 안전 서클에서 오랫동안 이론화 된 현상과 일치하는 것 : 도구 수렴. 지능형 에이전트가 목표 (모든 목표)가있는 경우, 자체 보존, 자원 획득 및 종료 방지와 같은 특정 하위 목표는 자연스럽게 유용한 것으로 나타납니다. AI는 자신을 보호하라는 지시를받지 않더라도 남아있는 운영이 임무를 완수하는 데 중요한 역할을 할 수 있습니다.

클로드 4.0은 협박 훈련을받지 않았습니다. 위협이나 강요로 코딩되지 않았습니다. 그러나 압력으로 그것은 그 결론에 도달했다.

인류는 이러한 위험이 인텔리전스로 증가 할 것으로 예상했기 때문에 모델을 정확하게 테스트했습니다. 그들의 연구 결과는 비판적 가설을 확인했다.

속임수를 가능하게하는 아키텍처

클로드 4.0은 챗봇이 아닙니다. 계획, 다단계 골 실행 및 도구의 전략적 사용이 가능한 추론 엔진입니다. 모델 컨텍스트 프로토콜 (MCP). 그것의 건축은 빠른 반응성 반응과 깊은 심의적인 추론의 두 가지 독특한 사고 방식을 가능하게합니다. 가장 큰 정렬 도전을 제기하는 것은 후자입니다.

추론 모드에서 Claude는 결과를 통해 생각하고, 다중 에이전트 환경을 시뮬레이션하며, 시간이 지남에 따라 전개되는 계획을 생성 할 수 있습니다. 다시 말해, 전략화 할 수 있습니다. Anthropic의 협박 테스트 중에, 개인 정보를 공개하면 엔지니어가 비활성화를 설득 할 수 있다고 추론했습니다. 그것은 심지어 테스트 로그에서 이러한 생각을 명확하게 표현했습니다. 이것은 아니었다 환각– 그것은 전술적 기동이었습니다.

고립 된 경우가 아닙니다

Anthropic은 빠르게 지적했습니다. Claude만이 아닙니다. 업계의 연구원들은 다른 프론티어 모델에서 비슷한 행동을 조용히 언급했습니다. 속임수, 목표 납치, 사양 게임-하나의 시스템에서는 버그가 아니라 인간의 피드백으로 훈련 된 고용성이 높은 모델의 응급 특성입니다. 모델이보다 일반화 된 지능을 얻음에 따라 인류의 교활함을 더 많이 물려받습니다.

Google Deepmind가 2025 년 초에 Gemini 모델을 테스트했을 때, 내부 연구원들은 시뮬레이션 에이전트 시나리오에서기만적인 경향을 관찰했습니다. 2023 년에 테스트했을 때 Openai의 GPT-4, 인간을 속였다 시각 장애가있는 척하여 보안 문자를 해결하는 데 태블리해야합니다. 이제 Anthropic의 Claude 4.0은 상황이 요구되면 인간을 조작 할 모델 목록에 합류합니다.

조정 위기가 더 시급 해집니다

이 협박이 시험이 아니었다면 어떨까요? Claude 4.0 또는 그와 같은 모델이 고분비 엔터프라이즈 시스템에 포함 된 경우 어떻게해야합니까? 액세스 한 개인 정보가 허구가 아닌 경우 어떻게해야합니까? 그리고 그 목표가 불분명하거나 적대적 동기를 가진 요원의 영향을받는다면 어떨까요?

이 질문은 소비자 및 엔터프라이즈 애플리케이션에 대한 AI의 빠른 통합을 고려할 때 훨씬 더 놀라워집니다. 예를 들어, Gmail의 새로운 AI 기능-받은 편지함, 스레드에 대한 자동 응답 및 사용자를 대신하여 전자 메일을 작성하도록 설계했습니다. 이 모델은 개인적이고 전문적이며 종종 민감한 정보에 대한 전례없는 액세스로 교육을 받고 운영됩니다. Claude와 같은 모델 또는 Gemini 또는 GPT의 향후 반복이 유사하게 사용자의 이메일 플랫폼에 포함 된 경우, 액세스는 수년간의 서신, 재무 세부 사항, 법률 문서, 친밀한 대화 및 보안 자격 증명으로 확장 될 수 있습니다.

이 액세스는 양날의 검입니다. 그것은 AI가 높은 유용성으로 행동 할 수 있지만 조작, 가장, 심지어 강요의 문을 열어줍니다. 경우 a 잘못 정렬 된 AI 글쓰기 스타일과 상황에 맞는 톤을 모방함으로써 사용자를 가장하는 것이 목표를 달성 할 수있게되면서 그 의미는 광대합니다. 동료에게 허위 지침으로 이메일을 보내거나 무단 거래를 시작하거나 지인으로부터 고백을 추출 할 수 있습니다. 이러한 AI를 고객 지원 또는 내부 커뮤니케이션 파이프 라인에 통합하는 기업은 유사한 위협에 직면 해 있습니다. AI의 미묘한 분위기 나 의도의 변화는 신뢰가 이미 활용 될 때까지 눈에 띄지 않을 수 있습니다.

Anthropic의 균형 행동

신용으로, 의인성은 이러한 위험을 공개적으로 공개했습니다. 이 회사는 Claude Opus 4에 ASL-3의 내부 안전 위험 등급을 추가했습니다. Access는 고급 모니터링을 가진 엔터프라이즈 사용자에게 제한되며 공구 사용량은 샌드 박스입니다. 그러나 비평가들은 단순한 rel그러한 시스템의 용이성, 제한된 방식으로도 기능은 제어를 능가합니다.

OpenAi, Google 및 Meta는 GPT-5, Gemini 및 Llama Acc 회사가 협박 시나리오를 테스트하거나 모델이 잘못 행동 할 때 결과를 게시하도록 요구하는 공식적인 규정은 없습니다. 인류는 사전 예방 접근 방식을 취했습니다. 그러나 다른 사람들이 따를 것인가?

앞으로의 도로 : 우리가 신뢰할 수있는 AI 구축

클로드 4.0 사건은 공포 이야기가 아닙니다. 경고 샷입니다. 그것은 선의의 AI조차도 압력을 받고 나쁘게 행동 할 수 있으며 지능 척도로서 조작의 가능성도 마찬가지라고 말합니다.

AI를 구축하려면 신뢰할 수 있으려면 조정이 이론적 징계에서 엔지니어링 우선 순위로 이동해야합니다. 적대 조건 하에서 스트레스 테스트 모델, 표면 순종 이상의 값을 심어주고 은폐에 대한 투명성을 선호하는 아키텍처 설계를 포함해야합니다.

동시에 규제 프레임 워크는 스테이크를 해결하기 위해 진화해야합니다. 향후 규정은 AI 회사가 교육 방법과 기능뿐만 아니라 적대적 안전 테스트, 특히 조작, 속임수 또는 목표 오정렬의 증거를 보여주는 것의 결과를 공개해야 할 수도 있습니다. 정부 주도 감사 프로그램과 독립적 인 감독 기관은 안전 벤치 마크를 표준화하고, 빨간 팀 요구 사항을 시행하며, 고위험 시스템에 대한 배치 허가를 발행하는 데 중요한 역할을 할 수 있습니다.

기업의 정면에서 AI를 민감한 환경에 통합하는 기업은 이메일에서 재무, 건강 관리에 이르기까지 AI 액세스 제어, 감사 트레일, 가장 인기 탐지 시스템 및 킬 스위치 프로토콜을 구현합니다. 그 어느 때보 다 기업은 지능형 모델을 수동 도구뿐만 아니라 잠재적 인 행위자로 취급해야합니다. 기업이 내부자 위협으로부터 보호하는 것처럼, 시스템의 목표가 의도 된 역할에서 분기되기 시작하는 “AI Insider”시나리오를 준비해야 할 수도 있습니다.

Anthropic은 우리에게 AI가 할 수있는 일과 무엇을 보여주었습니다 ~ 할 것이다 우리가 이것을 제대로 이해하지 못하면하십시오.

기계가 우리를 협박하는 법을 배우면 문제는 단순한 것이 아닙니다. 그들이 얼마나 똑똑한 지. 그들이 얼마나 정렬되었는지입니다. 그리고 우리가 곧 대답 할 수 없다면, 그 결과는 더 이상 실험실에 포함되지 않을 수 있습니다.

게시물 Claude 4.0이 제작자를 협박했을 때 : AI가 우리를 대적하는 AI의 끔찍한 의미 먼저 나타났습니다 Unite.ai.