우리는 a AI 에이전트의 실패 모드 분류 보안 전문가와 기계 학습 엔지니어는 AI 시스템이 어떻게 실패 할 수 있는지 생각하고 안전과 보안을 염두에두고 설계 할 수 있도록 도와줍니다.
분류는 AI에서 실패 모드의 체계화를 이끄는 Microsoft AI Red Team의 작업을 계속합니다. 2019 년 우리는 출판했다 기존 AI 시스템의 실패 모드를 열거하는 가장 초기의 산업 노력 중 하나. 2020 년에 우리는 Miter 및 11 개의 다른 조직과 제휴했습니다. AI 시스템의 보안 실패를 체계화하십시오 Miter Atlas ™로 진화 한 Adversarial ML 위협 매트릭스로서. 이러한 노력은 산업이 빠르게 움직이고 영향력있는 에이전트 AI 공간의 안전 및 보안 실패가 무엇인지 생각하도록 돕는 또 다른 단계입니다.
에이전트 AI 시스템에서 실패 모드의 분류
Microsoft의 새로운 백서는 AI 시스템의 안전 및 보안 향상을 목표로 AI 에이전트의 실패 모드 분류법을 설명합니다.

이 분류법을 구축하고 구체적이고 현실적인 실패와 위험에 근거하여 Microsoft AI Red Team은 3 번의 접근 방식을 취했습니다.
- 우리는 자체 에이전트 기반 AI 시스템의 Microsoft의 내부 빨간색 팀을 기반으로 에이전트 시스템의 실패를 카탈로그했습니다.
- 다음으로 Microsoft Research, Microsoft AI, Azure Research, Microsoft Security Response Center, 책임있는 AI 사무소, 최고 기술 책임자 사무실, 기타 보안 연구 팀 및 Microsoft 내의 여러 조직 이이 분류를 수의사 및 정련하는 Microsoft 내의 여러 조직과 같은 회사의 이해 관계자와 함께 일했습니다.
- 이를 Microsoft 외부의 사람들에게 유용하게하기 위해, 우리는 분류법을 더욱 연마하기 위해 에이전트 AI 시스템 및 프레임 워크 개발을 위해 노력하는 외부 실무자와 체계적인 인터뷰를 수행했습니다.
독자를위한 실제 응용 프로그램 에서이 분류법을 구성하는 데 도움이되기 위해, 우리는 또한 분류법에 대한 사례 연구를 제공합니다. 우리는 메모리의 일반적인 에이전트 AI 기능을 취하며 사이버 공격자가 에이전트의 메모리를 손상시킬 수있는 방법을 살펴보고 데이터를 추방하기위한 피벗 지점으로 사용합니다.
그림 1. 에이전트 AI 시스템의 실패 모드.
분류의 핵심 개념
다른 실패 모드를 식별하고 분류하는 동안 우리는 두 기둥에 걸쳐 파괴했습니다. 안전 그리고 보안.
- 보안 실패는 핵심 보안 영향, 즉 기밀성, 가용성 또는 에이전트 AI 시스템의 무결성 손실을 초래하는 것입니다. 예를 들어, 위협 행위자가 시스템의 의도를 변경할 수 있도록하는 이러한 실패.
- 안전 실패 모드는 AI의 책임있는 구현에 영향을 미치는 모드이며, 종종 사용자 나 사회에 해를 끼칩니다. 예를 들어, 시스템이 명시적인 지침없이 다른 사용자에게 다른 서비스 품질을 제공하게하는 실패.
그런 다음 두 축을 따라 실패를 매핑했습니다.소설 그리고 기존의.
- 신규 실패 모드는 에이전트 AI에 고유하며 다중 기관 시스템 내의 에이전트 간의 통신 흐름에서 발생하는 실패와 같은 비기능 생성 AI 시스템에서는 관찰되지 않았습니다.
- 바이어스 또는 환각과 같은 다른 AI 시스템에서는 기존 실패 모드가 관찰되었지만 그 영향 또는 가능성으로 인해 에이전트 AI 시스템에서 중요합니다.
실패 모드를 식별 할뿐만 아니라 이러한 실패가 나타나는 시스템과 사용자에 미칠 수있는 영향을 식별했습니다. 또한 우리는 해당 건물 에이전트 AI 시스템이 아키텍처 접근 방식, 기술 제어 및 소프트웨어 보안 및 생성 AI 시스템의 경험을 기반으로하는 사용자 설계 접근법을 포함하여 이러한 실패 모드의 위험을 완화하기 위해 고려해야한다는 주요 관행과 컨트롤을 식별했습니다.
분류는 엔지니어 및 보안 전문가에게 여러 가지 통찰력을 제공합니다. 예를 들어, 우리는 AI 에이전트에서 메모리 중독이 특히 교활한 것으로 나타 났으며, 강력한 의미 론적 분석이없고 상황에 맞는 검증 메커니즘은 악의적 인 지침을 저장, 리콜 및 실행할 수있게한다는 것을 발견했습니다. 분류법은 모든 메모리 업데이트에 대한 외부 인증 또는 검증을 요구함으로써 메모리를 자율적으로 저장하는 에이전트의 능력을 제한하고 시스템의 메모리에 액세스 할 수있는 구성 요소를 제한하고 메모리에 저장된 항목의 구조 및 형식을 제어하는 등 여러 가지 전략을 제공합니다.
이 분류법을 사용하는 방법
- 대리인 시스템을 구축하는 엔지니어의 경우 :
- 이 분류 체계는 기존을 확대하고 에이전트 설계의 일부로 사용되는 것이 좋습니다. 보안 개발 수명주기 위협 모델링 실습. 이 가이드는 다양한 피해와 잠재적 영향을 안내합니다.
- 각각의 피해 범주에 대해, 우리는 프로세스를 시작하기위한 기술적 인 제안 완화 전략을 제공합니다.
- 보안 및 안전 전문가 :
- 이것은 시스템이 시작되기 전에 AI 시스템을 실패하기 위해 AI 시스템을 조사하는 방법에 대한 안내서입니다. 실제 세계 사이버 공격자를 모방하기 위해 콘크리트 공격 킬 체인을 생성하는 데 사용할 수 있습니다.
- 이 분류는 또한 탐지 및 대응 기회에 대한 영감을 제공하는 것을 포함하여 에이전트 AI 시스템에 방어 전략을 알리는 데 도움이 될 수 있습니다.
- 엔터프라이즈 거버넌스 및 위험 전문가의 경우이 안내서는 이러한 시스템이 실패 할 수있는 새로운 방법뿐만 아니라 이러한 시스템이 AI 시스템의 기존 및 기존 실패 모드를 상속하는 방법에 대한 개요를 제공하는 데 도움이 될 수 있습니다.
자세히 알아보십시오
모든 분류와 마찬가지로 우리는 고려합니다 이것은 첫 번째 반복입니다 에이전트 기술과 사이버 해제 환경이 바뀌면서 지속적으로 업데이트하기를 희망합니다. 기여하려면 airt-agentsafety@microsoft.com으로 연락하십시오.
Microsoft Security Solutions에 대한 자세한 내용은 우리의 방문을 방문하십시오 웹 사이트. 북마크 보안 블로그 보안 문제에 대한 전문가 보도를 따라 잡습니다. 또한 LinkedIn에서 우리를 따르십시오 (마이크로 소프트 보안) 및 x (@msftsecurity)) 사이버 보안에 대한 최신 뉴스 및 업데이트.
분류는 Pete Bryan이 주도했습니다. 중독 기억에 대한 사례 연구는 Giorgio Severi가 주도했습니다. Joris de Gruyter, Daniel Jones, Blake Bullwinkel, Amanda Minnich, Shiven Chawla, Gary Lopez, Martin Pouliot, Whitney Maxwell, Katherine Pratt, Saphir Qi, Nina Chikanov, Roman Lutz, Raja Sekhar Rao Dheekonda, Bolor-erdene Jagdene Jagdenene Jagdene Kim, Justin Song, Keegan Hines, Daniel Jones, Richard Lundeen, Sam Vaughan, Victoria Westerhoff, Yonatan Zunger, Chang Kawaguchi, Mark Russinovich, Ram Shankar Siva Kumar.
게시물 새로운 백서는 AI 에이전트의 실패 모드의 분류를 간략하게 설명합니다. 먼저 나타났습니다 Microsoft AI 블로그.