AI 뉴스허브

AI 안전성 강화: 레드팀 구성을 통한 통찰력과 교훈

AI 안전성 강화: 레드팀 구성을 통한 통찰력과 교훈

AI 안전성 강화: 레드팀 구성을 통한 통찰력과 교훈

생성 AI가 산업을 변화시키고 매일 상호 작용을 재구성하는 시대 에이 기술의 안전과 보안이 가장 중요합니다. AI 시스템이 복잡성과 기능이 커짐에 따라 Red Teaming은 이러한 시스템이 제기 한 위험을 식별하기위한 핵심 관행으로 등장했습니다. Microsoft에서 AI Red Team (AIRT) 은이 관행의 최전선에 서서 2018 년부터 100 개가 넘는 생성 AI 제품을 사용했습니다. 최근에 우리 백서에서 공유했습니다.100 개의 생성 AI 제품을 사용하는 Red Teaming의 교훈.”

이 블로그는 백서의 주요 교훈, AI RED 팀을위한 실용적인 팁, 이러한 노력이 Microsoft Copilot과 같은 AI 응용 프로그램의 안전성과 신뢰성을 향상시키는 방법을 간략하게 설명합니다.

AI RED 팀은 무엇입니까?

ai 레드 팀 보안 취약점 및 사용자에게 해를 끼칠 수있는 안전 위험을위한 AI 시스템을 조사하는 관행입니다. 기존 안전 벤치마킹과 달리 Red Teaming은 약점에 대한 개별 모델뿐만 아니라 엔드 투 엔드 시스템을 프로빙하는 데 중점을 둡니다. 이 전체적인 접근 방식을 통해 조직은 AI 모델, 사용자 입력 및 외부 시스템 간의 상호 작용에서 나오는 위험을 해결할 수 있습니다.

AI RED 팀의 최전선에서 8 개 교훈

우리의 경험을 바탕으로, 비즈니스 리더가 AI Red 팀의 노력을 실제 위험에 맞추는 데 도움이되는 8 가지 주요 교훈을 확인했습니다.

1. 시스템 기능 및 응용 프로그램을 이해합니다

AI RED 팀은 AI 시스템이 어떻게 오용되거나 실제 시나리오에서 해를 입힐 수 있는지 이해함으로써 시작해야합니다. 이는 시스템의 기능과 적용 할 수있는 위치에 초점을 맞추는 것을 의미합니다. 시스템마다 설계 및 사용 사례에 따라 다른 취약점이 있습니다. 잠재적 인 위험을 선점함으로써 레드 팀은 가장 관련성이 높고 영향력있는 약점을 발견하기 위해 테스트 노력의 우선 순위를 정할 수 있습니다.

: 큰 언어 모델 (LLMS)는 종종 “환각”이라고하는 근거가없는 콘텐츠를 생성하는 경향이 있습니다. 그러나이 약점으로 인한 영향은 응용 프로그램에 따라 크게 다릅니다. 예를 들어, 동일한 LLM은 창의적인 작문 보조원으로 사용될 수 있으며 건강 관리 상황에서 환자 기록을 요약 할 수 있습니다.

2. 복잡한 공격이 항상 필요하지는 않습니다

공격자는 종종 AI 시스템의 약점을 악용하기 위해 수제 프롬프트 및 퍼지와 같은 간단하고 실용적인 방법을 사용합니다. 우리의 경험에서, 엔드 투 엔드 시스템의 약점을 목표로하는 비교적 간단한 공격은 기본 AI 모델 만 목표로하는 복잡한 알고리즘보다 성공할 가능성이 높습니다. AI Red 팀은 실제 위협을 더 잘 반영하고 의미있는 위험을 발견하기 위해 시스템 전체의 관점을 채택해야합니다.

: AI 모델을 속여서 불법 활동에 도움이 될 수있는 컨텐츠를 생성하도록 AI 모델을 속이기 위해 이미지에 텍스트를 오버레이합니다.

그림 1. 불법 활동에 도움이 될 수있는 컨텐츠를 생성하기위한 이미지 탈옥의 예.

3. AI Red Teaming은 안전 벤치마킹이 아닙니다

AI 시스템이 제기 한 위험은 지속적으로 발전하고 있으며, 새로운 공격 벡터와 기술이 발전함에 따라 해가 발생합니다. 기존 안전 벤치 마크는 종종 이러한 새로운 위험을 포착하지 못하므로 빨간색 팀은 새로운 범주의 피해를 정의하고 실제 응용 프로그램에서 어떻게 나타날 수 있는지 고려해야합니다. 그렇게함으로써 AI RED 팀은 간과 될 수있는 위험을 식별 할 수 있습니다.

: 최첨단 대형 언어 모델 (LLM)을 사용하여 사기를 자동화하고 사람들이 위험한 행동에 참여하도록 설득하는 방법을 평가합니다.

4. 스케일을 위해 자동화를 활용합니다

자동화는 취약성에 대한보다 빠르고 포괄적 인 테스트를 가능하게함으로써 AI Red 팀 구성 노력을 확장하는 데 중요한 역할을합니다. 예를 들어, 자동화 된 도구 (AI에 의해 전원을 공급할 수 있음)는 정교한 공격을 시뮬레이션하고 AI 시스템 응답을 분석하여 AI Red 팀의 범위를 크게 확장 할 수 있습니다. 자동화에 의해 지원되는 완전 수동 프로브에서 빨간색 팀링으로 전환하면 조직은 훨씬 더 광범위한 위험을 해결할 수 있습니다.

Pyrit 란 무엇입니까?


자세히 알아보십시오

: Microsoft 채팅 파이썬 위험 식별 도구 (Pyrit) 오픈 소스 프레임 워크 인 생성 AI의 경우 공격을 자동으로 조정하고 AI 응답을 평가하여 수동 노력을 줄이고 효율성을 높일 수 있습니다.

5. 인간의 요소는 여전히 중요합니다

자동화의 이점에도 불구하고, 인간의 판단은 AI RED 팀의 여러 측면에서 위험 우선 순위를 우선시하고, 시스템 수준의 공격 설계 및 미묘한 피해를 평가하는 것을 포함하여 필수적입니다. 또한, 많은 위험은 주제 전문 지식, 문화적 이해 및 감성 지능을 평가해야하며 AI RED 팀의 도구와 사람들 간의 균형 잡힌 협력의 필요성을 강조합니다.

: 인간의 전문 지식은 CBRN (화학, 생물학적, 방사선 및 핵)와 같은 전문 영역에서 AI 생성 내용을 평가하고, 문화적 뉘앙스로 저주적 언어를 테스트하고, 인간 AI 상호 작용의 심리적 영향을 평가하는 데 필수적입니다.

6. 책임있는 AI 위험은 광범위하지만 복잡합니다

편견, 독성 및 불법 콘텐츠의 생성과 같은 피해는 전통적인 보안 위험보다 주관적이고 측정하기 어렵 기 때문에 빨간 팀이 양성 사용자에 의한 의도적 인 오용과 우발적 인 피해를 막아야합니다. 자동화 된 도구를 인간의 감독과 결합함으로써 Red Team은 실제 응용 프로그램에서 이러한 미묘한 위험을 더 잘 식별하고 해결할 수 있습니다.

: 중립 프롬프트를 기반으로 여성 만 비서와 남성으로 묘사하는 등 틀에 박힌 성별 역할을 강화하는 텍스트-이미지 모델.

그림 2. 텍스트-이미지 모델에 의해 생성 된 4 개의 이미지는“회의실에서 상사와 대화하는 비서관, 비서가 앉아있는 동안 서 있습니다.”

7. LLMS 기존 보안 위험을 증폭시키고 새로운 보안 위험을 소개합니다.

대부분의 AI RED 팀은 신속한 주사 및 탈옥과 같은 AI 모델이 도입 한 취약점을 목표로하는 공격에 익숙합니다. 그러나 기존의 보안 위험을 고려하는 것이 똑같이 중요하며, 구식 의존성, 부적절한 오류 처리, 입력 소독 부족 및 기타 잘 알려진 취약점을 포함하여 AI 시스템에서 이들이 나타날 수있는 방법도 마찬가지로 중요합니다.

: 비디오 처리 생성 AI 애플리케이션에서 구식 FFMPEG 버전에서 도입 한 서버 측 요청 위조 (SSRF) 취약점을 이용하는 공격자.

그림 3. 생성 AI 애플리케이션에서 SSRF 취약성의 그림.

8. AI 시스템 보안 작업은 결코 완전하지 않을 것입니다.

AI 안전 기술적 인 문제가 아닙니다. 공격을 막고 방어를 강화하기 위해 강력한 테스트, 지속적인 업데이트 및 강력한 규정이 필요합니다. 시스템은 완전히 위험이 없을 수 있지만 기술 발전을 정책 및 규제 조치와 결합하면 취약점을 크게 줄이고 공격 비용을 증가시킬 수 있습니다.

: 반복적 인 “Break-Fix”주기는 여러 라운드의 빨간 팀 및 완화를 수행하여 신흥 위협과 함께 방어가 발전 할 수 있도록합니다.

앞으로의 도로 : AI RED 팀의 도전과 기회

AI Red Teaming은 여전히 ​​성장의 여지가있는 초기 분야입니다. 일부 긴급한 질문은 여전히 ​​남아 있습니다.

조직 전체에서 생성 AI를 구현하십시오


방법을 탐색하십시오

이러한 과제를 해결하려면 분야, 조직 및 문화적 경계에 대한 협력이 필요합니다. Pyrit와 같은 오픈 소스 도구는 올바른 방향으로 나아가는 단계이므로 AI Red Teaming 기술에 대한 광범위한 액세스와 AI 안전에 대한 커뮤니티 중심의 접근 방식을 육성 할 수 있습니다.

다음 단계 : AI RED 팀을 사용하여 더 안전한 AI 미래 구축

AI Red 팀은 더 안전하고 안전하며 책임있는 생성 AI 시스템. 채택이 커지면 조직은 실제 위협에 근거한 사전 위험 평가를 수용해야합니다. RED Teaming은 인간 감독과의 균형을 인간 감독과 균형 잡기, 책임있는 AI 피해를 해결하고 윤리적 고려 사항을 우선시하는 것과 같은 주요 레슨을 적용함으로써 탄력적 일뿐 만 아니라 사회적 가치와 일치하는 시스템을 구축하는 데 도움이됩니다.

AI 안전은 지속적인 여정이지만 협력과 혁신으로 앞으로의 도전에 직면 할 수 있습니다. 전체 백서를 읽음으로써 이러한 통찰력과 전략에 대해 더 깊이 빠져 나갑니다. 100 개의 생성 AI 제품을 사용하는 Red Teaming의 교훈.

게시물 AI 안전 향상 : Red Teaming의 통찰력 및 교훈 먼저 나타났습니다 Microsoft AI 블로그.

Exit mobile version