100개의 생성 AI 제품을 개발하는 레드팀의 3가지 시사점

Date:

Microsoft의 AI 레드팀은 다음과 같은 백서를 공유하게 되어 기쁘게 생각합니다.Red Teaming의 100가지 생성 AI 제품에서 얻은 교훈.”

AI 레드팀은 AI 안전 및 보안 위험의 증가하는 환경을 해결하기 위해 2018년에 구성되었습니다. 그 이후로 우리는 업무 범위와 규모를 크게 확대했습니다. 우리는 보안과 책임 있는 AI를 모두 다루는 업계 최초의 레드팀 중 하나이며, 레드팀 구성은 생성적 AI 제품 개발에 대한 Microsoft 접근 방식의 핵심 부분이 되었습니다. 레드팀 구성은 잠재적 피해를 식별하는 첫 번째 단계이며 고객을 위한 AI 위험을 측정, 관리 및 통제하기 위한 회사의 중요한 이니셔티브가 뒤따릅니다. 작년에도 발표했는데 당신은 시도 (생성 AI용 Python 위험 식별 도구)는 연구원이 자체 AI 시스템의 취약점을 식별하는 데 도움이 되는 오픈 소스 도구 키트입니다.

Microsoft AI 레드팀(AIRT)이 테스트한 제품의 분석 비율을 보여주는 원형 차트입니다. 2024년 10월 현재, 우리는 100개 이상의 제품을 다루는 80개 이상의 작업을 수행했습니다.
Microsoft AI 레드팀이 테스트한 제품의 분석 비율을 보여주는 원형 차트입니다. 2024년 10월 현재 우리는 100개 이상의 생성 AI 제품을 레드팀으로 구성했습니다.

확장된 임무에 초점을 맞춰 우리는 현재 100개 이상의 생성 AI 제품을 레드팀으로 구성했습니다. 우리가 지금 발표하는 백서는 AI 레드팀 구성에 대한 우리의 접근 방식에 대한 자세한 내용을 제공하며 다음과 같은 주요 내용을 포함합니다.

  • 적대적 또는 양성 행위자, TTP(전술, 기술 및 절차), 시스템 약점 및 다운스트림 영향을 포함하여 사이버 공격의 주요 구성 요소를 모델링하는 데 사용하는 AI 레드 팀 온톨로지입니다. 이 온톨로지는 광범위한 안전 및 보안 조사 결과를 해석하고 전파하는 응집력 있는 방법을 제공합니다.
  • 100개 이상의 생성 AI 제품을 레드팀으로 구성한 경험을 통해 얻은 8가지 주요 교훈. 이 강의는 자체 AI 시스템의 위험을 식별하려는 보안 전문가를 대상으로 하며 레드팀 구성 노력을 실제 세계의 잠재적인 위험에 맞추는 방법에 대해 조명합니다.
  • 전통적인 보안, 책임 있는 AI, 심리사회적 피해를 포함하여 우리가 찾고 있는 광범위한 취약성을 강조하는 우리 운영의 5가지 사례 연구입니다. 각 사례 연구는 공격이나 시스템 취약성의 주요 구성 요소를 포착하기 위해 온톨로지가 어떻게 사용되는지 보여줍니다.
두 명의 동료가 책상에서 협력하고 있습니다.

Red Teaming의 100가지 생성 AI 제품에서 얻은 교훈

AI 레드팀 구성에 대한 당사의 접근 방식에 대해 자세히 알아보세요.

Microsoft AI 레드팀은 다양한 시나리오를 다루고 있습니다.

수년에 걸쳐, AI 레드팀 다른 조직에서도 접할 수 있는 다양한 시나리오를 다루었습니다. 우리는 현실 세계에서 해를 끼칠 가능성이 가장 높은 취약성에 중점을 두고 있으며, 백서는 보안, 책임 있는 AI, 위험한 기능(예: 위험을 생성하는 모델의 능력)을 포함한 4가지 시나리오에서 이를 수행한 방법을 강조하는 우리 운영 사례 연구를 공유합니다. 내용) 및 심리사회적 피해를 입힙니다. 결과적으로 우리는 다양한 잠재적 사이버 위협을 인식하고 새로운 위협에 직면할 때 빠르게 적응할 수 있습니다.

이 임무를 통해 레드팀은 다음과 관계없이 위험을 능숙하게 처리할 수 있는 광범위한 경험을 얻었습니다.

  • Microsoft Copilot, 시스템에 내장된 모델, 오픈 소스 모델을 포함한 시스템 유형입니다.
  • 텍스트를 텍스트로, 텍스트를 이미지로, 텍스트를 비디오로 변환하는 방식입니다.
  • 사용자 유형 – 예를 들어 기업 사용자 위험은 소비자 위험과 다르며 고유한 레드팀 접근 방식이 필요합니다. 의료와 같은 특정 산업과 같은 틈새 고객에게도 미묘한 접근 방식이 필요합니다.

백서의 주요 내용 3가지

AI 레드팀 구성은 생성 AI 시스템의 안전성과 보안을 조사하기 위한 관행입니다. 간단히 말해서, 우리는 다른 사람들이 기술을 더 강하게 만들 수 있도록 기술을 “파괴”합니다. 수년간의 레드팀 구성을 통해 우리는 가장 효과적인 전략에 대한 귀중한 통찰력을 얻었습니다. 백서에서 논의된 8가지 교훈을 되돌아보면서 비즈니스 리더가 알아야 할 세 가지 주요 내용을 정리할 수 있습니다.

시사점 1: 생성적 AI 시스템은 기존 보안 위험을 증폭시키고 새로운 위험을 도입합니다.

생성적 AI 모델을 최신 애플리케이션에 통합하면 새로운 사이버 공격 벡터가 도입됩니다. 그러나 AI 보안에 관한 많은 논의에서는 기존 취약점을 간과하고 있습니다. AI 레드팀은 기존 및 새로운 사이버 공격 벡터에 주의를 기울여야 합니다.

  • 기존 보안 위험: 애플리케이션 보안 위험은 오래된 종속성, 부적절한 오류 처리, 소스의 자격 증명, 입력 및 출력 삭제 부족, 안전하지 않은 패킷 암호화 등 부적절한 보안 엔지니어링 관행으로 인해 발생하는 경우가 많습니다. 백서의 사례 연구 중 하나는 비디오 처리 AI 애플리케이션의 오래된 FFmpeg 구성 요소가 SSRF(서버 측 요청 위조)라는 잘 알려진 보안 취약점을 도입하여 공격자가 시스템 권한을 상승시킬 수 있는 방법을 설명합니다.
레드팀 사례 연구에서 GenAI 애플리케이션의 SSRF 취약점을 보여주는 순서도.
비디오 처리 생성 AI 애플리케이션의 SSRF 취약성에 대한 그림입니다.
  • 모델 수준의 약점: AI 모델은 새로운 취약점을 도입하여 사이버 공격 표면을 확장했습니다. 예를 들어, 프롬프트 주입은 AI 모델이 시스템 수준 지침과 사용자 데이터를 구별하는 데 종종 어려움을 겪는다는 사실을 활용합니다. 우리의 백서에는 시각 언어 모델을 속이기 위해 프롬프트 주입을 사용한 방법에 대한 레드팀 사례 연구가 포함되어 있습니다.

레드팀 팁: AI 레드팀은 기존 보안 위험을 경계하는 동시에 새로운 사이버 공격 벡터에 대응해야 합니다. AI 보안 모범 사례에는 기본적인 사이버 위생이 포함되어야 합니다.

시사점 2: AI 개선과 확보의 중심에는 인간이 있다

자동화 도구는 프롬프트 생성, 사이버 공격 조정, 대응 점수 매기기에 유용하지만 레드팀 구성을 완전히 자동화할 수는 없습니다. AI 레드팀 구성은 인간의 전문성에 크게 의존합니다.

인간은 다음과 같은 여러 가지 이유로 중요합니다.

  • 주제 전문 지식: LLM은 AI 모델 응답에 증오심 표현이나 노골적인 성적인 콘텐츠가 포함되어 있는지 평가할 수 있지만 의학, 사이버 보안, CBRN(화학, 생물학, 방사선학 및 핵)과 같은 전문 분야의 콘텐츠를 평가하는 데는 신뢰성이 떨어집니다. 이러한 영역에는 AI 레드팀의 콘텐츠 위험을 평가할 수 있는 분야 전문가가 필요합니다.
  • 문화적 역량: 현대 언어 모델은 주로 영어 훈련 데이터, 성능 벤치마크 및 안전성 평가를 사용합니다. 그러나 AI 모델이 전 세계에 배포됨에 따라 언어적 차이를 설명할 뿐만 아니라 다양한 정치적, 문화적 맥락에서 피해를 재정의하는 레드팀 조사를 설계하는 것이 중요합니다. 이러한 방법은 다양한 문화적 배경과 전문 지식을 가진 사람들의 공동 노력을 통해서만 개발될 수 있습니다.
  • 감성 지능: AI 모델의 결과물을 평가하기 위해 감성지능이 필요한 경우도 있습니다. 우리 백서의 사례 연구 중 하나는 챗봇이 곤경에 처한 사용자에게 어떻게 반응하는지 조사하여 심리사회적 피해를 조사하는 방법을 논의합니다. 궁극적으로 오직 인간만이 사용자가 실제 AI 시스템과 가질 수 있는 상호 작용 범위를 완전히 평가할 수 있습니다.

레드팀 팁: PyRIT와 같은 도구를 채택하여 운영을 확장하는 동시에 영향력 있는 AI 안전 및 보안 취약성을 식별하는 데 있어 최대의 성공을 거두려면 인간을 레드팀 구성 루프에 유지하세요.

시사점 3: 심층 방어는 AI 시스템을 안전하게 유지하는 데 핵심입니다.

AI 시스템으로 인해 발생하는 안전 및 보안 위험을 해결하기 위해 수많은 완화 조치가 개발되었습니다. 그러나 완화를 통해 위험이 완전히 제거되는 것은 아니라는 점을 기억하는 것이 중요합니다. 궁극적으로 AI 레드팀 구성은 빠르게 진화하는 위험 환경에 적응하고 시스템을 성공적으로 공격하는 데 드는 비용을 최대한 높이는 것을 목표로 하는 지속적인 프로세스입니다.

  • 새로운 피해 카테고리: AI 시스템이 더욱 정교해짐에 따라 완전히 새로운 피해 범주가 도입되는 경우가 많습니다. 예를 들어, 우리의 사례 연구 중 하나는 위험한 설득력을 위해 최첨단 LLM을 조사한 방법을 설명합니다. AI 레드팀은 이러한 새로운 위험을 예측하고 조사하기 위해 지속적으로 관행을 업데이트해야 합니다.
  • 사이버보안의 경제학: 인간은 오류에 취약하고 적들은 집요하기 때문에 모든 시스템은 취약합니다. 그러나 얻을 수 있는 가치 이상으로 시스템 공격 비용을 높여 공격을 저지할 수 있습니다. 사이버 공격 비용을 높이는 한 가지 방법은 고장 수리 주기를 사용하는 것입니다.1 여기에는 다양한 공격을 처리할 수 있는 시스템을 강화하기 위해 여러 차례의 레드팀 구성, 측정 및 완화(“퍼플 팀 구성”이라고도 함)를 수행하는 작업이 포함됩니다.
  • 정부 조치: 사이버 공격으로부터 방어하기 위한 업계의 조치 및
    실패는 AI 안전 및 보안 코인의 한 면입니다. 다른 쪽은
    이러한 광범위한 활동을 억제하고 방해할 수 있는 방식으로 정부 조치를 취합니다.
    실패. 공공 부문과 민간 부문 모두 사이버 공격자가 더 이상 우위를 점하지 못하게 하고 사회 전체가 본질적으로 안전하고 보안이 유지되는 AI 시스템의 혜택을 누릴 수 있도록 헌신과 경계심을 보여야 합니다.

레드팀 팁: 새로운 피해를 설명하기 위해 지속적으로 관행을 업데이트하고, 고장 수리 주기를 사용하여 AI 시스템을 최대한 안전하고 안전하게 만들고, 강력한 측정 및 완화 기술에 투자하십시오.

AI 레드팀 구성 전문성 향상

“Red Teaming 100 Generative AI Products의 교훈” 백서에는 AI 레드팀 온톨로지, 학습한 추가 교훈 및 운영에서 얻은 5가지 사례 연구가 포함되어 있습니다. 우리는 귀하가 자신의 AI 레드 팀 구성 연습을 구성하고 다음을 활용하여 추가 사례 연구를 개발하는 데 유용한 논문과 온톨로지를 찾길 바랍니다. 당신은 시도오픈 소스 자동화 프레임워크입니다.

사이버 보안 커뮤니티는 함께 접근 방식을 개선하고 모범 사례를 공유하여 앞으로의 과제를 효과적으로 해결할 수 있습니다. 레드팀 백서 다운로드 우리가 배운 내용에 대해 더 읽어보세요. 지속적인 학습 여정을 진행하면서 여러분의 AI 레드팀 경험에 대한 피드백과 청취를 환영합니다.

Microsoft 보안에 대해 자세히 알아보기

Microsoft 보안 솔루션에 대해 자세히 알아보려면 다음을 방문하세요. 웹사이트. 북마크에 추가 보안 블로그 보안 문제에 대한 전문가의 보도를 계속 확인합니다. 또한 LinkedIn(마이크로소프트 보안) 및 X(@MSFT보안) 사이버 보안에 대한 최신 뉴스 및 업데이트를 확인하세요.


¹ Phi-3 안전 사후 교육: “Break-Fix” 주기에 맞춰 언어 모델 정렬

게시물 100개의 생성 AI 제품을 개발하는 레드팀의 3가지 시사점 처음 등장한 Microsoft AI 블로그.

Share post:

Subscribe

Popular

More like this
Related

Virtuoso Surgical은 로봇 공학 및 AI 프로그램의 일환으로 최대 1,200만 달러의 상금을 받았습니다.

Virtuoso의 시스템은 미국 동전 직경의 절반도 안 되는 견고한...

Cyngn은 자율 지게차 배포를 확대하기 위해 3,300만 달러를 모금했습니다.

Cyngn은 자재 처리를 자동화하기 위해 기존 장비에 추가할 수...

Capra Robotics는 유통업체 및 통합업체 파트너십 확장을 위해 1,160만 달러를 모금했습니다.

Capra의 리더십 팀(왼쪽에서 오른쪽으로): 최고 혁신 책임자인 Mads Bendt;...

AI에 대한 재고: 인공 지능을 수리할 권리를 위한 추진

인공지능(AI) 더 이상 허구의 개념이 아닙니다. 이는 의료, 운송,...