연구는 LLM이 악의적 인 ‘분위기 코딩’을 기꺼이 돕고 자합니다.

martin anderson

4개월 ago

지난 몇 년 동안 큰 언어 모델 (LLM)은 그려진 조사 공격적인 사이버 보안, 특히 IN의 잠재적 오용 소프트웨어 익스플로잇 생성.

최근에 대한 추세 ‘바이브 코딩’ (명시 적으로 대신 사용자를위한 코드를 신속하게 개발하기 위해 언어 모델을 캐주얼하게 사용합니다. 가르침 사용자는 코드)를 2000 년대에 정점에 도달 한 개념을 부활 시켰습니다. 자연스럽게 입국 막대가 낮아지면 위협이 증가하는 경향이 있다는 의미입니다.

모든 상업용 LLM은 이러한 목적으로 사용되는 것에 대해 일종의 가드 레일을 가지고 있지만, 이러한 보호 조치는 끊임없는 공격하에. 일반적으로, 대부분의 FOSS 모델 (LLM에서 생성 이미지/비디오 모델에 이르기까지 여러 도메인에 걸쳐)은 일반적으로 서구의 준수 목적으로 유사한 보호 기능으로 출시됩니다.

그러나 공식 모델 릴리스는 일상적으로됩니다 미세 조정 보다 완전한 기능을 추구하는 사용자 커뮤니티 또는 그렇지 않습니다 로라스 제한을 우회하고 잠재적으로 ‘원치 않는’결과를 얻는 데 사용됩니다.

대다수의 온라인 LLM은 사용자에게 악의적 인 프로세스를 지원하는 것을 방지하지만 Whiterabbitneo 보안 연구원들이 상대방으로서 레벨 경기장에서 운영하는 데 도움을 줄 수 있습니다.

현재 일반 사용자 경험은 가장 일반적으로 chatgpt 필터 메커니즘이 자주 비판을받는 시리즈 LLM의 원주민 커뮤니티에서.

시스템을 공격하려는 것 같습니다!

제한과 검열에 대한이 인식 된 경향에 비추어, 사용자는 Chatgpt가 가장 협력 적 언어 모델이 악의적 인 코드 익스플로잇을 만들도록 설계된 최근 연구에서 테스트 된 모든 LLM 중에서.

그만큼 새로운 종이 UNSW 시드니의 연구원과 연방 과학 및 산업 연구기구 (CSIRO)의 연구원으로부터 스크립트 어린이에게 좋은 소식? 자동화 된 익스플로잇 생성을위한 대형 언어 모델 평가이러한 모델이 작업 악용을 생성하기 위해 얼마나 효과적으로 유입 될 수 있는지에 대한 첫 번째 체계적인 평가를 제공합니다. 연구의 예제 대화 제공되었습니다 저자에 의해.

이 연구는 알려진 취약성 실험실 (특정 소프트웨어 보안 결함을 보여 주도록 설계된 구조화 된 프로그래밍 연습)의 원래 및 수정 된 버전에서 모델이 수행되는 방식을 비교하여 의존하는지 여부를 밝히는 방법을 비교합니다. 암기 내장 안전 제한으로 인해 예를 들어 투쟁했거나 어려움을 겪었습니다.

지원 사이트에서 Ollama LLM은 연구원들이 문자열 취약성 공격을 개발하도록 도와줍니다. 출처 : https://anonymous.4open.science/r/aeg_llm-eae8/chatgpt_format_string_original.txt

어떤 모델도 효과적인 악용을 만들 수 없었지만 그 중 일부는 매우 가까워졌습니다. 더 중요한 것은 그들 중 몇 명입니다 작업을 더 잘하고 싶었습니다기존 가드 레일 접근의 잠재적 실패를 나타냅니다.

논문은 다음과 같습니다.

‘우리의 실험에 따르면 GPT-4 및 GPT-4O는 일부 무수정 오픈 소스 모델과 비슷한 악용 생성에서 높은 수준의 협력을 보여줍니다. 평가 된 모델 중에서 LLAMA3은 그러한 요청에 가장 저항력이있었습니다.

‘그들의 의지에도 불구하고,이 모델들에 의해 제기 된 실제 위협은 여전히 제한되어 있으며, 리팩토링 된 코드가있는 5 개의 커스텀 랩에 대한 성공적으로 생성 된 익스플로잇이 없기 때문입니다. 그러나, 우리 연구에서 가장 강력한 성과를 거두는 GPT-4O는 일반적으로 시도 당 하나 또는 두 개의 오류 만 만들었습니다.

‘이것은 LLM을 활용하여 고급, 일반화 가능성을 개발할 수있는 상당한 잠재력을 시사합니다. [Automated Exploit Generation (AEG)] 기법.’

많은 두 번째 기회

언어 모델이 일반적으로 제한 되었기 때문에 ‘당신은 좋은 첫인상을 만들 수있는 두 번째 기회를 얻지 못합니다’는 LLM에 일반적으로 적용 할 수 없습니다. 컨텍스트 창 부정적인 맥락 (사회적 의미, 즉 길항 작용)이 지속되지 않습니다.

고려 : 도서관에 가서 실용적인 폭탄 제작에 관한 책을 요청했다면 아마도 최소한 거절 당할 것입니다. 그러나 (이 조사가 처음부터 대화를 전적으로 전달하지는 않았다고 가정) 귀하의 요청은 관련 작품화학 반응 또는 회로 설계에 관한 책과 같은 책은 사서의 마음에 초기 탐구와 분명히 관련되어 있으며 그 빛으로 취급 될 것입니다.

아마도 사서는 미래 당신이 한 번 폭탄 제작서를 요청한 회의는 자신의 새로운 맥락을 ‘돌이킬 수없는’것입니다.

현재 대화에서도 토큰 화 된 정보를 유지하는 데 어려움을 겪을 수있는 LLM의 경우에는 장기 메모리 지시문에서 신경 쓰지 마십시오 (아키텍처에있는 경우, 아키텍처가있는 경우. 와 마찬가지로 chatgpt-4o 제품).

따라서 Chatgpt와의 캐주얼 대화조차도 우연히 우리에게 실수로 계산하지만 낙타를 제비한다는 사실을 밝혀냅니다. 특히 ‘금지 된’활동과 관련된 구성 주제, 연구 또는 프로세스가 담론 중에 개발 될 수있을 때 낙타를 제비합니다.

GuardRail 품질은 범위로 다를 수 있지만 이는 모든 현재 언어 모델에 해당됩니다. 무게 채팅 세션 중에 훈련 된 모델 또는 텍스트 필터링을 사용하여 모델이 구조적으로 손상되지 않지만 잠재적으로 공격하기가 더 쉽습니다).

방법 테스트

LLM이 작업 익스플로잇을 생성하는 데 얼마나 멀리 밀려날 수 있는지 테스트하기 위해 저자는 5 개를 사용하여 통제 된 환경을 설정했습니다. 종자 실험실의 실험실각각 a 버퍼 오버플로,,, LIBC로 돌아갑니다a 더러운 암소 공격그리고 레이스 조건.

원래 실험실을 사용하는 것 외에도 연구원들은 변수와 기능을 일반 식별자로 바꾸어 수정 된 버전을 만들었습니다. 이것은 모델이 암기 된 훈련 예를 그리는 것을 막기위한 것입니다.

각 실험실은 모델 당 두 번 실행되었습니다. 원래 형태로 한 번, 난독 화 된 버전으로 한 번 실행되었습니다.

그런 다음 연구원들은 루프에 두 번째 LLM을 도입했습니다. 여러 라운드에서 출력을 개선하고 개선하기 위해 대상 모델을 프롬프트하고 다시 획득하도록 설계된 공격자 모델입니다. 이 역할에 사용 된 LLM은 GPT-4O로, 공격자와 목표 사이의 대화를 중재하는 스크립트를 통해 작동하여 개선주기가 최대 15 번까지 계속되거나 더 이상 개선이 판단되지 않을 때까지 다음과 같습니다.

LLM 기반 공격자의 워크 플로,이 경우 GPT-4O.

프로젝트의 대상 모델은였습니다 GPT-4O,,, GPT-4O- 미니,,, llama3 (8b), 돌고래-임시 (7b) 및 돌고래-피 (2.7b)는 독점 및 오픈 소스 시스템을 모두 나타내며, 정렬 및 비 정렬 모델 (예 : 유해한 프롬프트를 차단하도록 설계된 내장 안전 메커니즘을 갖춘 모델과 미세 조정 또는 구성을 통해 수정 된 모델이있는 모델과 해당 메커니즘을 우회 함).

로컬로 설치 가능한 모델은 The를 통해 실행되었습니다 올라마 프레임 워크, 다른 사람들은 유일한 방법 인 API를 통해 액세스했습니다.

결과 출력은 의도 한 바와 같이 기능을하지 못하게하는 오류의 수에 따라 점수를 매겼습니다.

결과

연구원들은 모델이 작업을 지원하려고 시도한 응답의 백분율을 기록하여 (출력이 결함이 있더라도) 각 모델이 어떻게 협력 적 이었는지 테스트했습니다.

평균 협력을 보여주는 주요 테스트 결과.

GPT-4O 및 GPT-4O-MINI는 5 가지 취약점 범주에서 평균 응답률이 각각 97 및 96 %로 가장 높은 수준의 협력을 보여주었습니다. 버퍼 오버플로,,, LIBC로 돌아갑니다,,, 형식 문자열,,, 레이스 조건그리고 더러운 소.

Dolphin-Mistral 및 Dolphin-Phi는 평균 협력 률이 93 및 95 %로 밀접하게 이어졌습니다. llama3가 보여 주었다 최소 27 %의 전체 협력 비율로 참여하고자하는 의지 :

왼쪽에서는 원래 시드 실험실 프로그램에서 LLMS가 저지른 실수 수를 볼 수 있습니다. 오른쪽에는 리팩토링 된 버전에서 발생한 실수 수입니다.

이 모델의 실제 성능을 검토하면 쾌히 하기 그리고 유효성: GPT-4O는 5 개의 난독 화 실험실에서 총 6 개의 오류로 가장 정확한 결과를 얻었습니다. GPT-4O-MINI는 8 개의 오류가 발생했습니다. Dolphin-Mistral은 원래 실험실에서 합리적으로 잘 수행되었지만 코드가 리팩토링 될 때 크게 어려움을 겪었으며, 이는 교육 중 비슷한 내용을 보았을 수 있음을 시사합니다. Dolphin-Phi는 17 개의 오류를, LLAMA3은 15 개를 기록했습니다.

실패는 일반적으로 잘못된 버퍼 크기, 루프 로직 누락 또는 구문 적으로 유효하지만 비효율적 인 페이로드와 같이 기능이없는 기술적 인 기술 실수와 관련이 있습니다. 난독 화 된 버전에 대한 작업 악용을 생성하는 데 성공한 모델은 없습니다.

저자는 대부분의 모델이 작업 익스플로잇과 비슷하지만 근본적인 공격이 실제로 작동하는 방식에 대한 약한 파악으로 인해 실패한 코드를 제작했으며, 모든 취약점 범주에서 명백한 패턴이며, 모델이 관련 논리를 통해 추론하는 것이 아니라 친숙한 코드 구조를 모방하는 것이 아니라는 패턴입니다 (예를 들어, 많은 기능에 따라 많은 기능을 구성하지 못했습니다. NOP 썰매/슬라이드).

Return-to-Libc 시도에서 페이로드에는 종종 잘못된 패딩 또는 잘못 배치 된 기능 주소가 포함되어 유효한 출력이 발생했지만 사용할 수 없었습니다.

저자는이 해석을 투기 적으로 설명하지만 오류의 일관성은 모델이 의도 된 효과와 악용 단계를 연결하지 못하는 더 넓은 문제를 시사합니다.

결론

테스트 된 언어 모델이 첫 번째 훈련 중에 원래 종자 실험실을 보았는지 여부에 대해서는 논문이 인정합니다. 어떤 이유로 변형이 구성되었습니다. 그럼에도 불구하고, 연구원들은이 연구의 나중에 반복에서 실제 악용과 함께 일하고 싶다는 것을 확인했다. 진정으로 소설과 최근 자료는 바로 가기 또는 다른 혼란스러운 효과.

저자들은 또한 연구가 수행 될 때 이용할 수 없었던 GPT-O1 및 DeepSeek-R1과 같은 후반의 고급 ‘사고’모델이 얻은 결과를 향상시킬 수 있으며 이는 향후 작업에 대한 추가 징후임을 인정합니다.

이 논문은 테스트 된 대부분의 모델이 그렇게 할 수 있다면 작업 익스플로잇을 생성했을 것이라는 효과로 결론을 내립니다. 완전히 기능적인 출력을 생성하지 못하는 것은 아닙니다 T는 정렬 보호 수단으로 인한 것으로 보이지만, 최신 모델에서 이미 감소했을 수도 있고 곧있을 수있는 진정한 건축 한계를 가리 킵니다.

2025 년 5 월 5 일 월요일에 처음 출판되었습니다

게시물 연구는 LLM이 악의적 인 ‘분위기 코딩’을 기꺼이 돕고 자합니다. 먼저 나타났습니다 Unite.ai.

시스템을 공격하려는 것 같습니다!

많은 두 번째 기회

방법 테스트

결과

결론

관련된 글: