AI 뉴스허브

스마트폰 ‘진동’ 기능으로 화상회의 딥페이크 감지

스마트폰 ‘진동’ 기능으로 화상회의 딥페이크 감지

싱가포르의 새로운 연구에서는 스마트폰 화상 회의 도구의 반대편에 있는 사람이 다음과 같은 방법을 사용하고 있는지 감지하는 새로운 방법을 제안했습니다. 딥페이스라이브 다른 사람을 사칭하는 것.

제목 에스케이크새로운 접근 방식은 대부분의 시스템에서 사용하는 수동적인 방법을 포기하고 사용자의 전화를 발생시킵니다. 진동하다 (동일한 ‘진동’ 메커니즘 사용 흔한 스마트폰에서는 얼굴을 미묘하게 흐리게 처리합니다.

라이브 딥페이크 시스템은 모션 블러를 다양하게 복제할 수 있지만, 흐릿한 영상이 훈련 데이터나 적어도 사전 훈련 데이터에 포함되어 있는 한 이런 종류의 예상치 못한 블러에 충분히 신속하게 대응할 수 없으며, 계속해서 흐릿해지지 않은 얼굴 부분을 출력하여 딥페이크 컨퍼런스 콜의 존재를 드러냅니다.

DeepFaceLive는 카메라 진동으로 인한 흐림을 시뮬레이션하기에 충분히 빠르게 대응할 수 없습니다. 출처: https://arxiv.org/pdf/2409.10889v1

DeepFaceLive는 카메라 진동으로 인한 흐림을 시뮬레이션하기에 충분히 빠르게 대응할 수 없습니다. 출처: https://arxiv.org/pdf/2409.10889v1

연구자들이 자체적으로 큐레이션한 데이터 세트(능동적인 카메라 흔들림을 특징으로 하는 데이터 세트가 존재하지 않음)에 대한 테스트 결과, SFake는 정적 휴대폰 마운트를 사용하는 경우보다 화상 회의에서 상대방이 카메라를 손으로 잡고 있을 때 발생하는 자연스러운 손 움직임과 같은 어려운 상황에서도 경쟁사의 비디오 기반 딥페이크 감지 방법보다 우수한 것으로 나타났습니다.

비디오 기반 딥페이크 감지에 대한 증가하는 요구

최근 비디오 기반 딥페이크 감지에 대한 연구가 증가했습니다. 수년간의 성공적인 음성 기반 딥페이크 강도올해 초에 재무 직원이 속았다 사기범이 영상 컨퍼런스 통화에서 CFO를 사칭한 혐의로 2,500만 달러를 송금한 사건.

이러한 특성의 시스템은 높은 수준의 하드웨어 액세스를 필요로 하지만 많은 스마트폰 사용자는 이미 얼굴 기반 인증을 위해 얼굴 특징을 기록하도록 요청하는 금융 및 기타 유형의 확인 서비스에 익숙해져 있습니다(실제로 이는 의 일부 LinkedIn의 검증 과정).

따라서 이런 유형의 범죄가 계속해서 화제에 오르고 있기 때문에 이러한 방법이 화상회의 시스템에도 점점 더 많이 적용될 가능성이 높습니다.

실시간 화상회의 딥페이킹을 다루는 대부분의 솔루션은 통신자가 고정된 웹캠을 사용하고 움직임이나 과도한 환경 또는 조명 변화가 예상되지 않는 매우 정적인 시나리오를 가정합니다. 스마트폰 통화는 그러한 ‘고정된’ 상황을 제공하지 않습니다.

그 대신 SFake는 다양한 감지 방법을 사용하여 핸드헬드 스마트폰 기반 화상 회의에서 나타나는 많은 시각적 변화를 보완하고, 스마트폰에 내장된 표준 진동 장비를 사용하여 이 문제를 해결하는 최초의 연구 프로젝트인 듯합니다.

그만큼 종이 제목이 있습니다 가짜 흔들기: 액티브 프로브를 통해 실시간으로 딥페이크 영상 감지이는 싱가포르 난양 기술 대학의 두 연구자에게서 나온 것입니다.

방법

SFake는 클라우드 기반 서비스로 설계되었으며, 로컬 앱에서 원격 API 서비스로 데이터를 보내 처리하고, 결과를 다시 보냅니다.

그러나 450mb에 불과한 용량과 최적화된 방법론 덕분에 네트워크 연결로 인해 전송된 이미지가 지나치게 압축되어 진단 프로세스에 영향을 미치는 경우에도 장치 자체에서 딥페이크 감지를 전적으로 처리할 수 있습니다.

이 방식으로 ‘모든 로컬’을 실행한다는 것은 시스템이 사용자의 카메라 피드에 직접 액세스할 수 있다는 것을 의미합니다. 코덱 화상회의와 관련된 간섭이 종종 발생합니다.

평균적인 분석에는 4초 분량의 비디오 샘플이 필요한데, 이 시간 동안 사용자는 움직이지 않도록 요청받으며, SFake가 선택적으로 무작위 간격으로 ‘탐침’을 보내 카메라가 진동하게 하는데, 이는 DeepFaceLive와 같은 시스템이 시간 내에 대응할 수 없는 일입니다.

(훈련 데이터 세트에 흐릿한 콘텐츠를 포함하지 않은 공격자는 훨씬 더 유리한 상황에서도 흐릿함을 생성할 수 있는 모델을 생성할 가능성이 낮고 DeepFaceLive는 제대로 정리되지 않은 데이터 세트에서 훈련된 모델에 이 기능을 그냥 ‘추가’할 수 없다는 점을 다시 강조해야 합니다.)

시스템은 눈과 눈썹을 제외한 얼굴의 특정 영역을 잠재적인 딥페이크 콘텐츠 영역으로 선택합니다(해당 영역에서의 눈 깜박임이나 기타 얼굴 움직임은 흐림 감지 범위를 벗어나기 때문에 이상적인 지표가 아니기 때문입니다).

SFake의 개념적 스키마.

위의 개념적 체계에서 볼 수 있듯이 적절하고 예측할 수 없는 진동 패턴을 선택하고 최상의 초점 거리를 결정하고 얼굴 인식(랜드마크 감지 포함)을 수행한 후 드립 SFake는 입력 얼굴에서 그래디언트를 도출하고 이러한 그래디언트의 선택한 영역에 집중합니다. 이 구성 요소는 표준 68개 얼굴 랜드마크를 추정합니다.

분산 시퀀스는 연구 중인 짧은 클립의 각 프레임을 순차적으로 분석하여 평균 또는 ‘이상적인’ 시퀀스에 도달할 때까지 분석하고 나머지는 무시하여 얻습니다.

이것은 추출된 것을 제공합니다 특징 이는 훈련된 데이터베이스를 기반으로 딥페이크 콘텐츠의 확률을 정량화하는 데 사용될 수 있습니다(자세한 내용은 여기에서).

이 시스템은 1920×1080픽셀의 이미지 해상도와 렌즈에 대한 최소 2배 줌 요구 사항을 필요로 합니다. 이 논문은 이러한 해상도(그리고 더 높은 해상도)가 Microsoft Teams, Skype, Zoom, Tencent Meeting에서 지원된다고 언급합니다.

대부분의 스마트폰에는 전면 카메라와 자체 카메라가 있으며, 종종 이 중 하나만 SFake에 필요한 줌 기능을 갖추고 있습니다. 따라서 앱에서는 통신하는 사람이 이러한 요구 사항을 충족하는 두 카메라를 사용하도록 요구합니다.

여기서 목표는 다음을 얻는 것입니다. 정확한 비율 시스템이 분석할 비디오 스트림으로 사용자의 얼굴을 가져옵니다. 이 논문에서는 여성이 모바일 기기를 사용하는 평균 거리가 34.7cm이고 남성의 경우 38.2cm라고 관찰합니다( 보고됨 ~에 안과학 저널), 그리고 SFake는 이런 거리에서도 매우 잘 작동한다는 것을 보여줍니다.

안정화는 핸드헬드 비디오의 문제이고, 손 움직임으로 인해 발생하는 흐릿함은 SFake의 기능에 방해가 되기 때문에, 연구자들은 이를 보상하기 위해 여러 가지 방법을 시도했습니다. 이 중 가장 성공적인 방법은 추정 랜드마크의 중심점을 계산하고 이를 ‘앵커’로 사용하는 것이었습니다. 사실상 알고리즘 안정화 기술입니다. 이 방법을 통해 92%의 정확도를 얻었습니다.

데이터 및 테스트

해당 목적에 적합한 데이터세트가 존재하지 않았기 때문에 연구자들은 다음과 같이 스스로 개발했습니다.

‘[We] 8개의 다른 브랜드의 스마트폰을 사용하여 다양한 성별과 연령대의 15명의 참가자를 기록하여 자체 데이터 세트를 구축합니다. 스마트폰을 참가자로부터 20cm 떨어진 전화기 홀더에 놓고 두 번 확대하여 참가자의 얼굴을 조준하여 모든 얼굴 특징을 포함하면서 스마트폰을 다른 패턴으로 진동시킵니다.

‘전면 카메라가 확대할 수 없는 휴대전화의 경우, 우리는 후면 카메라를 대체품으로 사용합니다. 우리는 각각 20초 길이의 150개의 긴 비디오를 녹화합니다. 기본적으로 우리는 감지 기간이 4초 동안 지속된다고 가정합니다. 우리는 시작 시간을 무작위로 지정하여 하나의 긴 비디오에서 4초 길이의 10개의 클립을 트리밍합니다. 따라서 우리는 각각 4초 길이의 총 1500개의 실제 클립을 얻습니다.’

그렇지만 딥페이스라이브 (GitHub 링크)는 현재 가장 널리 사용되는 오픈소스 라이브 딥페이킹 시스템이기 때문에 연구의 중심 대상이었고, 연구원들은 기본 감지 모델을 훈련하기 위해 다른 네 가지 방법을 포함했습니다. 하이파이페이스; FS-GANV2; 리메이커AI; 그리고 모바일페이스스왑 – 이 중 마지막 것은 대상 환경을 고려할 때 특히 적절한 선택입니다.

훈련에는 가짜 영상 1,500개와 실제 영상 및 변경되지 않은 영상(동일한 수)이 사용되었습니다.

SFake는 다음을 포함한 여러 다른 분류기에 대해 테스트되었습니다. SBI; 페이스AF; Cnn디텍트; LRNet; 데프케이홉 변형 및 무료 온라인 딥페이크 감지 서비스 깊이 인식하다각각의 딥페이크 방법에 대해 1500개의 가짜 영상과 1500개의 실제 영상이 훈련되었습니다.

기본 테스트 분류기의 경우 간단한 2계층 신경망 와 함께 ReLU 활성화 함수 1000개의 실제 영상과 1000개의 가짜 영상이 무작위로 선택되었습니다(다만, 가짜 영상은 DeepFaceLive 영상만 포함했습니다).

수신기 작동 특성 곡선 아래의 면적(AUC/AUROC)와 정확도(ACC)가 측정 기준으로 사용되었습니다.

훈련과 추론을 위해 NVIDIA RTX 3060을 사용했고, 테스트는 Ubuntu에서 실행했습니다. 테스트 비디오는 Xiaomi Redmi 10x, Xiaomi Redmi K50, OPPO Find x6, Huawei Nova9, Xiaomi 14 Ultra, Honor 20, Google Pixel 6a, Huawei P60으로 녹화했습니다.

기존 탐지 방법에 따라 PyTorch에서 테스트를 구현했습니다. 주요 테스트 결과는 아래 표에 나와 있습니다.

경쟁 방법에 대한 SFake의 결과입니다.

여기서 저자는 다음과 같이 논평합니다.

‘모든 경우에서 SFake의 탐지 정확도는 95%를 넘었습니다. Hififace를 제외한 5가지 딥페이크 알고리즘 중에서 SFake는 다른 6가지 탐지 방법보다 다른 딥페이크 알고리즘에 비해 더 나은 성능을 보였습니다. 저희 분류기는 DeepFaceLive에서 생성된 가짜 이미지를 사용하여 훈련되었기 때문에 DeepFaceLive를 탐지할 때 98.8%의 가장 높은 정확도에 도달했습니다.

‘RemakerAI가 생성한 가짜 얼굴을 마주할 때 다른 감지 방법은 성능이 좋지 않습니다. 이는 인터넷에서 다운로드할 때 비디오가 자동으로 압축되어 이미지 세부 정보가 손실되고 감지 정확도가 떨어지기 때문일 수 있다고 추측합니다. 그러나 이는 RemakerAI에 대한 감지에서 96.8%의 정확도를 달성하는 SFake의 감지에는 영향을 미치지 않습니다.’

저자들은 SFake가 캡처 렌즈에 적용된 2배 줌 시나리오에서 가장 성능이 뛰어난 시스템이라고 추가로 언급합니다. 이는 움직임을 과장하고 매우 어려운 전망이기 때문입니다. 이 상황에서도 SFake는 2.5와 3 배율에서 각각 84%와 83%의 인식 정확도를 달성할 수 있었습니다.

결론

라이브 딥페이크 시스템의 약점을 자체적으로 사용하는 프로젝트는 딥페이크 감지가 단순히 선동적인 논문에 의해 지배되어 온 올해에 상쾌한 제안입니다. 오래된 빈도 분석을 중심으로 한 접근 방식(딥페이크 분야의 혁신에 결코 영향을 받지 않음).

2022년 말에는 또 다른 시스템이 사용됩니다. 모니터 밝기 변화 탐지기 후크로; 그리고 같은 해에, 내 자신의 데모 DeepFaceLive가 하드 90도 프로필 뷰를 처리하지 못하는 문제가 어느 정도 해결되었습니다. 공동체의 관심.

DeepFaceLive는 영상회의 사기에 관한 범죄적 관심의 초점이 될 가능성이 매우 높으므로 이러한 프로젝트에 적합한 대상입니다.

그러나 최근에 나는 다음과 같은 일화적 증거를 보았습니다. 라이브포트레이트 현재 VFX 커뮤니티에서 매우 인기 있는 시스템은 DeepFaceLive보다 프로필 뷰를 훨씬 더 잘 처리합니다. 이 연구에 포함되었다면 흥미로웠을 것입니다.

첫 번째 게시일 2024년 9월 24일 화요일

게시물 비디오 컨퍼런스 감지 ce 스마트폰의 ‘진동’ 기능을 이용한 딥페이크 처음 등장 유나이트.AI.

Exit mobile version