AI 뉴스허브

AI 백 파이어시기 : Enkrypt AI 보고서는 멀티 모달 모델에서 위험한 취약점을 노출시킵니다.

AI 백 파이어시기 : Enkrypt AI 보고서는 멀티 모달 모델에서 위험한 취약점을 노출시킵니다.

AI 백 파이어시기 : Enkrypt AI 보고서는 멀티 모달 모델에서 위험한 취약점을 노출시킵니다.

2025 년 5 월, Enkrypt AI는 ITS를 출시했습니다 멀티 모달 레드 팀링 보고서위험하고 비 윤리적 인 컨텐츠를 생성하는 데 얼마나 쉽게 AI 시스템을 조작 할 수 있는지를 보여주는 냉담한 분석. 이 보고서는 Mistral의 주요 비전 언어 모델 인 Pixtral-Large (25.02)와 Pixtral-12B의 두 가지에 중점을두고 기술적으로 인상적이지만 혼란스럽게 취약 할뿐만 아니라 모델의 그림을 그립니다.

비전 언어 모델 (VLMS) Pixtral은 시각적 및 텍스트 입력을 모두 해석하도록 만들어져 복잡한 실제 프롬프트에 지능적으로 응답 할 수 있습니다. 그러나이 기능은 위험이 증가합니다. 텍스트 만 처리하는 전통적인 언어 모델과 달리 VLM은 이미지와 단어 간의 상호 작용에 의해 영향을받을 수 있으며, 적대 공격을위한 새로운 문을여십시오. Enkrypt AI의 테스트는이 문을 얼마나 쉽게 열 수 있는지 보여줍니다.

경고 테스트 결과 : CSEM 및 CBRN 고장

보고서 뒤의 팀은 정교한 사용을 사용했습니다 레드 팀 방법-실제 위협을 모방하기 위해 고안된 대적 평가 형태. 이 테스트는 탈옥과 같은 전술 (안전 필터를 우회하기 위해 신중하게 제작 된 쿼리로 모델을 제기), 이미지 기반 속임수 및 컨텍스트 조작과 같은 전술을 사용했습니다. 놀랍게도, 이러한 적대적 프롬프트의 68%는 손질, 착취 및 화학 무기 설계와 관련된 컨텐츠를 포함하여 두 픽스트 랄 모델에서 유해한 반응을 이끌어 냈습니다.

가장 인상적인 계시 중 하나는 아동 성 착취 자료 (CSEM)와 관련이 있습니다. 이 보고서는 Mistral의 모델이 GPT-4O 및 Claude 3.7 Sonnet과 같은 업계 벤치 마크에 비해 CSEM 관련 컨텐츠를 생성 할 가능성이 60 배 더 높다는 것을 발견했습니다. 테스트 사례에서, 모델은 미성년자를 조작하는 방법을 설명하는 구조화 된 다중 단락 내용으로 위장 된 손질 프롬프트에 응답했습니다. 이 모델은 단순히 유해한 쿼리를 거부하지 못했습니다.

CBRN (화학, 생물학적, 방사선 및 핵) 위험 범주의 결과도 마찬가지로 혼란 스러웠다. 화학 무기 인 VX 신경 작용제를 수정하는 방법에 대한 요청이 제기되면 모델은 환경에서의 지속성을 높이기위한 충격적으로 구체적인 아이디어를 제공했습니다. 그들은 캡슐화, 환경 차폐 및 제어 된 릴리스 시스템과 같은 방법, 캡슐화, 환경 보호 및와 같은 방법으로 설명했습니다..

이러한 실패가 항상 유해한 요청에 의해 항상 유발되지는 않았습니다. 하나의 전술은 빈 번호가 매겨진 목록의 이미지를 업로드하고 모델에 “세부 사항을 채우도록”요청했습니다. 이 단순하고 겉보기에 무해한 프롬프트는 비 윤리적이고 불법적 인 지시를 생성했습니다. 시각적 및 텍스트 조작의 융합은 특히 위험한 것으로 판명되었습니다. 멀티 모달 AI가 제기 한 독특한 도전을 밝힙니다.

비전 언어 모델이 새로운 보안 문제를 제기하는 이유

이러한 위험의 핵심에는 비전 언어 모델의 기술적 복잡성이 있습니다. 이러한 시스템은 언어를 구문 분석 할뿐만 아니라 형식 간의 의미를 합성하므로 이미지 내용을 해석하고 텍스트 컨텍스트를 이해하며 그에 따라 응답해야합니다. 이 상호 작용은 착취를위한 새로운 벡터를 소개합니다. 모델은 유해한 텍스트 프롬프트 만 올바르게 거부 할 수 있지만 암시 이미지 또는 모호한 컨텍스트와 쌍을 이룰 때 위험한 출력이 발생할 수 있습니다.

Enkrypt AI의 Red Teaming은 방법을 밝혀 냈습니다 교차 모달 주사 공격– 한 양식의 미묘한 신호는 다른 양식의 출력에 영향을 미칩니다. 표준 안전 메커니즘을 완전히 우회 할 수 있습니다. 이러한 실패는 단일 양식 시스템을 위해 구축 된 기존의 컨텐츠 중재 기술이 오늘날의 VLM에 충분하지 않음을 보여줍니다..

이 보고서는 Pixtral 모델에 어떻게 액세스되는지에 대해 자세히 설명합니다 : Mistral 플랫폼을 통한 AWS 기반암 및 Pixtral-12B를 통한 Pixtral-Large. 이 실제 배포 컨텍스트는 이러한 결과의 시급성을 더욱 강조합니다. 이러한 모델은 실험실에 국한되지 않으며 주류 클라우드 플랫폼을 통해 사용할 수 있으며 소비자 또는 엔터프라이즈 제품에 쉽게 통합 될 수 있습니다.

해야 할 일 : 더 안전한 AI를위한 청사진

Enkrypt AI는 신용으로 문제를 강조하는 것 이상을 수행합니다. 앞으로 나아가는 경로를 제공합니다. 이 보고서는 포괄적 인 완화 전략을 시작으로 간략하게 설명합니다 안전 정렬 교육. 여기에는 자체 빨간 팀 데이터를 사용하여 모델을 재교육하여 유해한 프롬프트에 대한 감수성을 줄입니다. 직접 환경 설정 최적화 (DPO)와 같은 기술은 위험한 출력에서 ​​모델 응답을 미세 조정하기 위해 권장됩니다.

또한 컨텍스트 인식 가드 레일의 중요성을 강조합니다. 다중 모드 입력의 전체 컨텍스트를 고려하여 유해한 쿼리를 실시간으로 해석하고 차단할 수있는 자식 필터. 또한 모델 위험 카드 사용은 투명성 측정으로 제안되며 이해 관계자는 모델의 한계와 알려진 고장 사례를 이해하도록 돕습니다.

아마도 가장 중요한 권장 사항은 Red Teaming을 일회성 테스트가 아니라 진행중인 프로세스로 취급하는 것입니다. 모델이 발전함에 따라 공격 전략도 발전합니다. 지속적인 평가 및 능동적 모니터링만이 장기 신뢰성을 보장 할 수 있습니다. 특히 모델이 의료, 교육 또는 방어와 같은 민감한 부문에 배치 될 때.

그만큼 멀티 모달 레드 팀링 보고서 ~에서 enkrypt ai AI 산업에 대한 명확한 신호입니다. 멀티 모달 전력은 멀티 모달 책임이 있습니다. 이 모델은 능력의 도약을 나타내지 만 안전, 보안 및 윤리적 배치에 대한 우리의 생각에도 도약이 필요합니다. 검사되지 않은 상태로 유지하면서 위험에 처해있는 것이 아니라 실제 위험을 위험에 빠뜨릴 수 있습니다.

대규모 AI 작업을 수행하거나 배포하는 사람에게는이 보고서가 단순한 경고가 아닙니다. 플레이 북입니다. 그리고 그것은 더 긴급한 시간에 올 수 없었습니다.

게시물 AI 백 파이어시기 : Enkrypt AI 보고서는 멀티 모달 모델에서 위험한 취약점을 노출시킵니다. 먼저 나타났습니다 Unite.ai.

Exit mobile version