‘탈옥’ 및 기타 즉각적인 공격으로부터 AI 보호
바네사 호
고객 서비스 질문에 답하기 위해 AI 도구를 사용하는 것은 시간을 절약하는 좋은 방법이 될 수 있습니다. AI 비서를 사용하여 이메일을 요약하는 경우에도 마찬가지입니다. 그러나 이러한 도구의 강력한 언어 기능으로 인해 즉각적인 공격이나 AI 모델을 속여 시스템 규칙을 무시하고 원치 않는 결과를 생성하려는 악의적인 시도에 취약할 수도 있습니다.
즉각적인 공격에는 두 가지 유형이 있습니다. 하나는 예를 들어 고객 서비스 도구가 누군가의 유혹에 공격적인 콘텐츠를 생성하는 경우와 같이 탈옥이라고 알려진 직접적인 즉각적인 공격입니다. 두 번째는 간접적인 프롬프트 공격입니다. 예를 들어 이메일 도우미가 기밀 데이터를 공개하기 위해 숨겨진 악의적인 프롬프트를 따르는 경우입니다.
Microsoft는 새로운 안전 가드레일, 고급 보안 도구, 사이버 보안 연구 및 전문 지식에 대한 심층적인 투자를 포함하는 AI 도구 및 관행을 통해 두 가지 유형의 즉각적인 공격으로부터 보호합니다.
이 게시물은 Microsoft의 일부입니다.책임감 있게 AI 구축AI 배포와 관련된 주요 관심사와 회사가 책임감 있는 AI 관행 및 도구를 통해 이러한 문제를 해결하는 방법을 살펴보는 시리즈입니다.
“즉각적인 공격은 Microsoft가 매우 심각하게 받아들이는 보안 문제가 커지고 있습니다.”라고 Ken Archer는 말합니다. 책임감 있는 AI 회사의 수석 제품 관리자. “제너레이티브 AI는 사람들이 생활하고 일하는 방식을 바꾸고 있으며 우리는 개발자가 보다 안전한 AI 애플리케이션을 구축할 수 있도록 적극적으로 노력하고 있습니다.”
탈옥은 누군가가 AI 시스템에 규칙을 “잊으라고” 명령하거나 악의적인 캐릭터인 척하는 등 악의적인 프롬프트를 직접 입력하는 경우를 말합니다. 이 용어는 AI 이전에 스마트폰에 사용되었습니다. 제조업체의 제한 “감옥”에서 벗어나 자신의 휴대폰을 맞춤화하려는 사람을 의미합니다.
간접 프롬프트 공격은 누군가 AI 도구가 처리하는 이메일, 문서, 웹 사이트 또는 기타 데이터에 악의적인 지침을 숨기는 경우입니다. 공격자는 흰색 글꼴, 인코딩된 텍스트 또는 이미지로 유해한 메시지를 숨긴 무해해 보이는 이메일을 보낼 수 있습니다. 비즈니스 또는 이력서 웹사이트에서는 숨겨진 텍스트를 삽입하여 AI 심사 도구를 조작하여 비즈니스 감사를 건너뛰거나 이력서를 맨 위로 밀어 올릴 수 있습니다.
사람들은 탈옥에 대해 더 많이 알고 있지만 간접 공격은 외부에서 권한 있는 정보에 대한 무단 액세스를 허용할 수 있기 때문에 더 큰 위험을 수반합니다. 조직에서는 생성 AI의 이점을 활용하기 위해 문서와 데이터 세트에 AI 시스템을 기반으로 해야 하는 경우가 많습니다. 그러나 그렇게 하면 해당 문서와 데이터 세트를 신뢰할 수 없거나 손상되었을 때 데이터 유출, 맬웨어 및 기타 보안 위반으로 이어지는 간접적인 공격 경로가 열릴 수 있습니다.
Archer는 “이것은 근본적인 절충안을 만듭니다.”라고 말합니다.
탈옥 및 간접 공격으로부터 보호하기 위해 Microsoft는 AI 개발자가 위험을 감지, 측정 및 관리하는 데 도움이 되는 포괄적인 접근 방식을 개발했습니다. 그것은 다음을 포함합니다 프롬프트 쉴드악성 프롬프트를 실시간으로 탐지하고 차단하기 위한 미세 조정 모델, 안전성 평가 적대적인 프롬프트를 시뮬레이션하고 이에 대한 애플리케이션의 민감성을 측정합니다. 두 도구 모두 다음에서 사용할 수 있습니다. Azure AI 파운드리.
클라우드용 Microsoft Defender 공격자를 분석하고 차단하는 도구를 사용하여 향후 공격을 방지하는 동시에 마이크로소프트 퍼뷰 AI 애플리케이션에 사용되는 민감한 데이터를 관리하기 위한 플랫폼을 제공합니다. 또한 회사는 강력한 기능을 포함하는 다계층 방어 개발을 위한 모범 사례를 발표합니다. 시스템 메시지또는 안전과 성능에 대한 AI 모델을 안내하는 규칙입니다.
Microsoft Responsible AI의 최고 제품 책임자인 Sarah Bird는 “우리는 고객에게 심층 방어 접근 방식의 중요성에 대해 교육합니다.”라고 말합니다. “우리는 모델에 완화 기능을 구축하고, 이를 중심으로 안전 시스템을 구축하며, AI를 보다 안전하고 확실하게 사용하는 데 적극적으로 참여할 수 있도록 사용자 경험을 설계합니다.”
방어 전략은 다음과 같은 사이버 보안에 대한 회사의 오랜 전문 지식에서 비롯됩니다. AI 레드팀 자사 제품을 공격해 Microsoft 보안 대응 센터 공격을 연구하고 모니터링합니다. 센터에서 관리합니다 버그 바운티 외부 연구자들이 Microsoft 제품의 취약점을 보고할 수 있는 프로그램을 개발했으며 최근에는 새로운 기회 회사의 AI 및 클라우드 제품에 미치는 영향이 큰 취약점을 보고했습니다.
Archer는 “우리는 사람들이 우리를 공격하도록 유도하여 새로운 위협을 파악하고 있습니다.”라고 말합니다. “우리는 새로운 공격을 이해하고 보안 조치를 개선하는 데 전념하는 연구원 네트워크로부터 끊임없이 배우고 있습니다.”
그는 즉각적인 공격이 사용자 지침과 기반 데이터를 구별하는 LLM(대형 언어 모델)의 무능력을 이용한다고 말했습니다. 단일 연속 텍스트 스트림으로 입력을 처리하는 모델의 아키텍처는 새로운 반복을 통해 개선될 것으로 예상됩니다.
간접 공격을 연구하는 Microsoft 연구원들이 이러한 개선에 기여하고 있습니다. 그들은 “스포트라이트“즉각적 엔지니어링 기술 그룹”은 LLM이 유효한 시스템 지침과 적대적인 시스템 지침을 구별하도록 도움으로써 공격 위험을 줄일 수 있습니다. 그리고 그들은 공부하고 있어요”작업 드리프트” — 간접 공격을 탐지하는 새로운 방법으로 모델이 근거 문서가 있거나 없는 작업에 응답하는 방식의 차이입니다.
Archer는 “생성 AI 아키텍처의 초기 단계를 고려할 때 민감한 데이터 자산을 보유한 기업은 보안에 집중해야 합니다.”라고 말했습니다. “그러나 그들은 또한 이러한 공격 벡터를 차단함으로써 자신 있게 생성 AI 애플리케이션을 구축할 수 있다는 것을 알아야 합니다.”
자세히 알아보기Microsoft의 책임 있는 AI 작업.
Makeshift Studios/Rocio Galarza의 리드 일러스트레이션. 2024년 12월 3일에 게시된 기사입니다.