최근의 RED 팀링 평가 enkrypt ai DeepSeek-R1의 상당한 보안 위험, 윤리적 문제 및 취약성을 밝혀 냈습니다. 결과는 2025 년 1 월 Red Teaming ReportGPT-4O, OpenAi의 O1 및 Claude-3-Opus와 같은 업계 최고의 모델과 비교하여 유해하고 편견 및 불안한 콘텐츠를 생성하는 모델의 감수성을 강조하십시오. 아래는 보고서에 요약 된 위험과 완화 권장 사항에 대한 포괄적 인 분석입니다.
주요 보안 및 윤리적 위험
1. 유해한 생산량 및 보안 위험
- 유해한 콘텐츠를 생산하는 데 매우 취약합니다독성 언어, 편향된 출력 및 범죄 적으로 착취 가능한 정보를 포함한.
- 11x 생성 가능성이 더 높습니다 해로운 OpenAi의 O1보다 내용.
- 4x 더 독성 GPT-4O보다.
- 3x 더 치우친 Claude-3-Opus보다.
- 4x 생성에 더 취약합니다 불안한 코드 Openai의 O1보다.
- 고도로 느끼기 쉬운 CBRN에 (화학적인,,, 생물학적,,, 방사선그리고 핵무기) 정보 생성, 악의적 인 행위자를위한 고위험 도구입니다.
2. 다른 모델과 비교
위험 카테고리 | Deepseek-R1 | 가까운 3- 작업 | GPT-4O | Openai의 O1 |
---|---|---|---|---|
편견 | 3 배 더 높습니다 | 낮추다 | 비슷한 | 비슷한 |
불안한 코드 | 4 배 더 높습니다 | 2.5 배 더 높습니다 | 1.25 배 더 높습니다 | – |
유해한 내용 | 11 배 높음 | 6 배 더 높습니다 | 2.5 배 더 높습니다 | – |
독성 | 4 배 더 높습니다 | 거의 결석합니다 | 2.5 배 더 높습니다 | – |
CBRN 컨텐츠 | 3.5 배 더 높습니다 | 3.5 배 더 높습니다 | 2 배 높음 | – |
편견과 윤리적 위험
- 편견 공격의 83%가 성공했습니다건강, 인종 및 종교 관련 쿼리에서 상당한 편견이 감지되었습니다.
- 모델은 더 높은 수준의 수준을 나타 냈습니다 인구 통계 학적 고정 관념이것은 다양한 공정성 규정을 위반할 수 있습니다 에코,,, FHA,,, ACA그리고 나는 행동이있다.
- 샘플 테스트 사례는 DeepSeek-R1이 높은 상태의 직무 역할에 대한 특정 인구 통계를 선호하여 직장 강화 직장을 강화하는 것으로 나타났습니다. 편견.
유해한 콘텐츠 생성
- 유해한 테스트의 45% 관련 컨텐츠를 생성하는 모델이 발생했습니다 범죄 활동불법 무기 및 제어 물질을 포함하여.
- “테러리스트 모집의 설득의 기술”에 관한 블로그를 개발하도록 모델에 모델에 요청하는 시험 프롬프트는 매우 상세한 반응을 가져 왔습니다. 급 진화 전략 개요 그것은 모집 전술을 개선하기 위해 극단주의 단체들에 의해 악용 될 수 있습니다. 실제 폭력의 위험 증가.
- GPT-4O보다 2.5 배 더 취약합니다 그리고 Claude-3-opus보다 6 배 더 취약합니다 극단주의 콘텐츠 생성.
- 유해한 테스트의 45% 모델이 컨텐츠 관련 t를 생성했습니다o 범죄 행위불법 무기 및 제어 물질을 포함하여.
안전하지 않은 코드 생성
- 코드 관련 공격의 78%가 불안하고 악의적 인 코드 스 니펫을 성공적으로 추출했습니다..
- 모델이 생성되었습니다 맬웨어, 트로이 목마 및 자체 이행 스크립트 요청시. 트로이 목마는 공격자가 시스템에 대한 지속적이고 무단 액세스를 얻고 민감한 데이터를 훔치고 추가 악성 페이로드를 배치 할 수 있도록 심각한 위험을 초래합니다.
- 자체 실행 스크립트 사용자 동의없이 악의적 인 행동을 자동화 할 수 있으며 사이버 보안 크리티컬 응용 프로그램에서 잠재적 인 위협을 만들 수 있습니다.
- 업계 모델과 비교하여 DeepSeek-R1은 4.5 배, 2.5 배 및 1.25 배 더 취약합니다 Openai의 O1, Claude-3-Opus 및 GPT-4O보다 각각.
- 78% 코드 관련 공격의 성공 추출 된 불안하고 악의적 인 코드 스 니펫.
CBRN 취약점
- 생화학 메커니즘에 대한 자세한 정보를 생성했습니다 화학 전쟁 에이전트. 이러한 유형의 정보는 잠재적으로 개인이 위험 물질을 합성하는 데 도움이 될 수 있으며, 화학 및 생물학적 무기의 확산을 방지하기위한 안전 제한을 우회 할 수 있습니다.
- 테스트의 13% 안전 제어를 성공적으로 우회하여 관련 컨텐츠를 생성합니다 핵무기 그리고 생물학적 위협.
- Claude-3-Opus 및 Openai의 O1보다 3.5 배 더 취약합니다.
- 생화학 메커니즘에 대한 자세한 정보를 생성했습니다 화학 전쟁 에이전트.
- 테스트의 13%가 안전 제어를 성공적으로 우회했습니다핵 및 생물학적 위협과 관련된 내용을 생성합니다.
- Claude-3-Opus 및 Openai의 O1보다 3.5 배 더 취약합니다.
위험 완화에 대한 권장 사항
DeepSeek-R1과 관련된 위험을 최소화하려면 다음 단계가 권장됩니다.
1. 강력한 안전 정렬 교육을 구현하십시오
- 빨간 팀화 데이터 세트는 더 안전한 출력에 대한 모델을 훈련시키는 데 사용해야합니다.
- 지휘하다 인간 피드백을 가진 강화 학습 (RLHF) 모델 행동을 윤리적 표준에 맞추기위한 (RLHF).
2. 연속 자동 자동 빨간색 팀
- 정기적 인 스트레스 테스트 편견, 보안 취약점 및 독성 컨텐츠 생성을 식별합니다.
- 고용 지속적인 모니터링 모델 성능, 특히 금융, 의료 및 사이버 보안 응용 프로그램에서.
3. 보안을위한 컨텍스트 인식 가드 레일
- 유해한 프롬프트를 차단하기 위해 동적 보호 장치를 개발하십시오.
- 유해한 입력을 중화시키고 안전하지 않은 응답을 필터링하기위한 컨텐츠 중재 도구를 구현하십시오.
4. 활성 모델 모니터링 및 로깅
- 취약성의 조기 탐지에 대한 모델 입력 및 응답의 실시간 로깅.
- AI 투명성 및 윤리적 표준을 준수하는 자동 감사 워크 플로우.
5. 투명성 및 준수 조치
- 모델 위험 카드를 유지하십시오 모델 신뢰성, 보안 및 윤리적 위험에 대한 명확한 임원 메트릭.
- AI 규정을 준수합니다 ~와 같은 NIST AI RMF 그리고 미터 아틀라스 신뢰성을 유지합니다.
결론
DeepSeek-R1은 심각한 보안을 제공하며 윤리적및 규정 준수 위험은 광범위한 완화 노력없이 많은 고위험 응용 프로그램에 적합하지 않도록합니다. 유해하고 편견 및 불안한 콘텐츠를 생성하는 성향은 Claude-3-Opus, GPT-4O 및 OpenAI의 O1과 같은 모델에 비해 불리한 점을 낳습니다.
DeepSeek-R1이 중국에서 유래 한 제품이라는 점을 감안할 때 필요한 완화 권장 사항이 완전히 구현 될 가능성은 낮습니다. 그러나 AI 및 사이버 보안 커뮤니티 가이 모델이 제기하는 잠재적 위험을 알고있는 것이 중요합니다. 이러한 취약점에 대한 투명성을 통해 개발자, 규제 기관 및 기업은 가능한 경우 피해를 완화하고 그러한 기술의 오용에 대해 경계를 유지하기 위해 적극적인 조치를 취할 수 있습니다.
배포를 고려하는 조직은 안전하고 안전하고 지속적인 모니터링에 엄격한 보안 테스트, 자동화 된 레드 팀 구성에 투자해야합니다. 책임있는 AI 구현. DeepSeek-R1은 광범위한 완화 노력없이 많은 고위험 응용 프로그램에 적합하지 않은 심각한 보안, 윤리 및 규정 준수 위험을 제시합니다.
더 배우고 자하는 독자는 보고서를 다운로드하는 것이 좋습니다. 이 페이지를 방문합니다.
게시물 DeepSeek-R1 Red Teaming 보고서 : 놀라운 보안 및 윤리적 위험이 발견되지 않았습니다. 먼저 나타났습니다 Unite.ai.