2019 년에 미국 하원 의원 연사 낸시 펠로시 (Nancy Pelosi)는 그녀의 실제 비디오가 그녀를 취한 것처럼 보이도록 편집되었을 때 대상이되고 매우 낮은 테크 딥 파이크 스타일 공격의 대상이었다. 수백만 번 공유했습니다 그것에 대한 진실이 나오기 전에 (그리고 잠재적으로, 그녀의 정치적 자본에 대한 완고한 피해를 입은 후에는 이야기와 연락을 유지하지 않은 사람들에 의해 영향을 받았다).
이 허위 진술에는 AI가 아닌 간단한 시청각 편집 만 필요하지만 실제 시청각 출력의 미묘한 변화가 어떻게 치명적인 영향을 미칠 수 있는지에 대한 핵심 예입니다.
당시 Deepfake 장면은 카스 코더 구운 2017 년 말에 데뷔했으며 그 이후로 품질이 크게 향상되지 않은 얼굴 교체 시스템. 이러한 초기 시스템은 이런 종류의 작지만 중요한 변화를 만들거나 다음과 표현 편집:

2022 년 ‘신경 감정 감독’프레임 워크는 유명한 얼굴의 분위기를 변화시킵니다. 출처 : https://www.youtube.com/watch?v=li6w8prdmjq
상황은 이제 상당히 다릅니다. 영화와 TV 산업은입니다 진지하게 관심이 있습니다 머신 러닝 접근법을 사용한 실제 성능의 사후 제작 및 AI의 촉진에서 사실상 완벽주의는 심지어 있습니다 최근 비판을 받으십시오.
이 수요를 예상 (또는 제작), 이미지 및 비디오 합성 연구 장면은 완전히 대체하기보다는 ‘로컬 편집’을 제공하는 광범위한 프로젝트를 발전 시켰습니다. 이런 종류의 프로젝트는 포함됩니다. 확산 비디오 카 스코더; 제 시간에 꿰매십시오; 채팅 페이스; 매직 페이스; 그리고 디스코다른 것 중에서도.

2025 년 1 월 프로젝트 Magicface와의 표현 편집. 출처 : https://arxiv.org/pdf/2501.02260
새로운 얼굴, 새로운 주름
그러나 활성화 기술은이 기술을 감지하는 방법보다 훨씬 빠르게 발전하고 있습니다. 문헌에서 표면이있는 거의 모든 Deepfake 탐지 방법은 어제의 심해 방법을 쫓고 있습니다. 어제의 데이터 세트. 이번 주까지, 그들 중 어느 누구도 비디오에서 작고 국소적인 로컬 변경을 만들기 위해 AI 시스템의 크리핑 잠재력을 다루지 않았습니다.
이제 인도의 새로운 신문이이를 수정했으며, 그랬던 얼굴을 식별하려는 시스템 편집 AI 기반 기술을 통한 (교체 대신) :

DeepFakes에서 미묘한 로컬 편집의 탐지 : 실제 비디오는 눈썹을 높이고, 성적 특성을 수정하고, 혐오로 향하는 표현의 변화 (여기서 단일 프레임으로 설명)를 생성하도록 변경됩니다. 출처 : https://arxiv.org/pdf/2503.22121
저자의 시스템은 미묘하고 현지화 된 얼굴 조작을 포함하는 심해를 식별하는 것을 목표로합니다. 이 접근법은 글로벌 불일치 또는 신원 불일치에 중점을 두지 않고 약간의 표현 이동 또는 특정 얼굴 특징에 대한 작은 편집과 같은 세밀한 변화를 목표로합니다.
이 방법은 얼굴 액션 코딩 시스템 (FACS)는 표현을 형성하는 64 개의 가능한 개별 돌연변이 부위를 정의합니다.

성분 64 표현 부분 중 일부. 출처 : https://www.cs.cmu.edu/~face/facs.htm
저자는 다양한 최근 편집 방법에 대한 그들의 접근법을 평가하고 이전 데이터 세트와 훨씬 더 최근의 공격 벡터와 함께 일관된 성능 이득을보고했습니다.
‘AU 기반 기능을 사용하여 마스킹 된 자동 인코더를 통해 학습 된 비디오 표현을 안내합니다. [(MAE)]우리의 방법은 미묘한 얼굴 편집을 감지하는 데 중요한 국소화 된 변화를 효과적으로 캡처합니다.
‘이 접근법을 통해 우리는 페이스 중심 비디오에서 현지화 된 편집과 광범위한 변경을 인코딩하는 통일 된 잠재적 표현을 구성 할 수 있습니다.
그만큼 새로운 종이 제목이 있습니다 액션 장치 유도 비디오 표현을 사용하여 현지화 된 Deepfake 조작을 감지합니다Madras의 Indian Institute of Technology의 세 작가에서 나왔습니다.
방법
접근 방식에 따라 비디오 깨우기새로운 방법은 얼굴 감지를 비디오에 적용하고 감지 된면을 중심으로 한 균등 한 간격의 프레임을 샘플링하여 시작합니다. 이 프레임은 작은 3D 부서로 나뉩니다 (즉, 일시적으로 가능하게 패치), 각각의 국소 공간 및 시간적 세부 사항을 캡처합니다.

새로운 방법에 대한 스키마. 입력 비디오는 얼굴 감지로 처리되어 균등 한 간격의 얼굴 중심 프레임을 추출한 다음 ‘관형’패치로 나뉘어 두 개의 사전에 사전 된 구실 작업에서 잠재적 인 표현을 융합시키는 인코더를 통과합니다. 그런 다음 결과 벡터를 분류기에 의해 사용하여 비디오가 실제인지 가짜인지 확인합니다.
각 3D 패치에는 소수의 연속 프레임 (예 : 2)에서 고정 크기의 픽셀 (즉, 16 × 16)이 포함되어 있습니다. 이것은 모델이 단기 운동과 표현 변화를 배울 수있게합니다. 얼굴의 모습뿐만 아니라 그것이 어떻게 움직이는 지.
패치는 내장되어 있습니다 위치 적으로 인코딩 가짜와 실제와 구별 할 수있는 기능을 추출하도록 설계된 인코더로 전달되기 전에.
저자는 미묘한 조작을 다룰 때 특히 어려운 일임을 인정하고, 두 가지 유형의 학습 된 표현을 결합한 인코더를 구성 하여이 문제를 해결합니다. 상호 관찰 그들을 융합시키는 메커니즘. 이것은보다 민감하고 일반화 가능한 것을 생산하기위한 것입니다. 기능 공간 현지 편집을 감지합니다.
구실 작업
이러한 표현 중 첫 번째는 마스크 된 자동 인코딩 작업으로 훈련 된 인코더입니다. 비디오가 3D 패치 (대부분 숨겨져 있음)로 분할되면 인코더는 누락 된 부분을 재구성하여 시간이 지남에 따라 얼굴 모션 또는 일관성과 같은 중요한 시공간 패턴을 포착하는 법을 배웁니다.

프리트 텍스트 작업 교육에는 비디오 입력의 일부를 마스킹하고 인코더 디코더 설정을 사용하여 작업에 따라 원래 프레임 또는 프레임당 액션 장치 맵을 재구성하는 것이 포함됩니다.
그러나이 논문은 이것만으로도 세분화 된 편집을 감지하기에 충분한 민감도를 제공하지 않으므로 저자는 얼굴 액션 장치 (AU)를 감지하도록 훈련 된 두 번째 인코더를 소개합니다. 이 작업을 위해이 모델은 각 프레임에 대한 조밀 한 AU 맵을 부분적으로 마스킹 한 입력에서 다시 재구성하는 법을 배웁니다. 이것은 많은 미묘한 심해 편집이 발생하는 지역화 된 근육 활동에 집중하도록 권장합니다.

안면 행동 단위 (FAU 또는 AUS)의 추가 예. 출처 : https://www.eiagroup.com/the-pacial-action-coding-system/
두 인코더가 사전에 사전되면 출력은 교차 변호를 사용하여 결합됩니다. 단순히 두 가지 기능 세트를 병합하는 대신이 모델은 AU 기반 기능을 다음과 같이 사용합니다. 쿼리 마스크 된 자동 인코딩에서 배운 공간적 특징에 대한 관심을 안내합니다. 사실상 액션 장치 인코더는 모델을 어디에서 볼지 알려줍니다.
결과는 더 넓은 모션 컨텍스트와 국소화 된 발현 수준 세부 사항을 모두 포착하기위한 융합 잠재 표현입니다. 이 결합 된 기능 공간은 최종 분류 작업에 사용됩니다. 비디오가 실제인지 조작되는지 예측합니다.
데이터 및 테스트
구현
저자는 입력 비디오를 Facexzoo Pytorch 기반 페이스 감지 프레임 워크, 각 클립에서 16 개의 얼굴 중심 프레임을 얻습니다. 위에서 설명한 구실 작업은 CeleBV-HQ 35,000 개의 고품질 얼굴 비디오로 구성된 데이터 세트.

소스 논문에서 새 프로젝트에 사용 된 CeleBV-HQ 데이터 세트의 예. 출처 : https://arxiv.org/pdf/2207.12393
데이터 예제의 절반이 가려져 시스템이 대신 일반적인 원칙을 배우도록 강요했습니다. 지나치게 적합합니다 소스 데이터에.
마스크 된 프레임 재구성 작업의 경우이 모델은 L1 손실원본과 재구성 된 컨텐츠의 차이를 최소화합니다.
두 번째 작업을 위해이 모델은 16 개의 안면 행동 유닛에 대한지도를 생성하도록 훈련되었으며, 각각은 눈썹, 눈꺼풀, 코 및 입술을 포함한 영역에서 미묘한 근육 운동을 나타내며 L1 손실로 다시 감독됩니다.
사전 조정 후, 두 엔코더를 융합시키고 미세 조정하여 Deepfake 검출을 사용하여 미세 조정했습니다. faceforensics ++ 실제 비디오 및 조작 된 비디오를 모두 포함하는 데이터 세트.

FaceForensics ++ 데이터 세트는 2017 년 이후 Deepfake 탐지의 초석이되었지만 최신 얼굴 합성 기술과 관련하여 현재는 상당히 오래되었습니다. 출처 : https://www.youtube.com/watch?v=x2g48q2i2zq
설명합니다 클래스 불균형저자는 사용했습니다 초점 손실 (변형 교차 엔트로피 손실), 훈련 중 더 어려운 사례를 강조합니다.
모든 훈련은 24GB의 VRAM을 가진 단일 RTX 4090 GPU에서 수행되었으며 배치 크기 600의 8 개 에포크 (데이터의 전체 검토) 사용 미리 훈련 Videomae의 검문소는 각 구실 작업의 가중치를 초기화합니다.
테스트
정량적 및 질적 평가는 다양한 심해 탐지 방법에 대해 수행되었다. ftcn; RealForensics; 입술 법의학; EffectEtnet + 적합; 얼굴 X- 레이; alt-f 리징; cadmm; 라안; 그리고 Blendface ‘s SBI. 모든 경우에 이러한 프레임 워크에 소스 코드를 사용할 수있었습니다.
이 테스트는 소스 클립의 일부만 변경된 로컬에서 편집 한 심해를 중심으로했습니다. 사용 된 아키텍처는 확산 비디오 자동 인코더 (DVA)였다; 제 시간에 꿰매십시오 (stit); 면화 된 얼굴 편집 (dfe); 토큰 플로우; videop2p; Text2Live; 그리고 단단한. 이 방법은 다양한 접근 방식을 사용합니다 (예 : STIT 및 DFE의 DVA 및 StyleGan2의 확산,)
저자 상태 :
‘다양한 얼굴 조작에 대한 포괄적 인 범위를 보장하기 위해 다양한 얼굴 특징과 속성 편집을 통합했습니다. 얼굴 기능 편집을 위해 눈 크기, 눈 눈의 거리, 코 비율, 코 입 거리, 입술 비율 및 뺨 비율을 수정했습니다. 얼굴 속성 편집을 위해, 우리는 미소, 분노, 혐오 및 슬픔과 같은 표현이 다릅니다.
‘이 다양성은 광범위한 현지화 된 편집보다 모델의 견고성을 검증하는 데 필수적입니다. 전체적으로, 우리는 위에서 언급 한 각 편집 방법에 대해 50 개의 비디오를 생성하고 Deepfake 탐지를위한 방법의 강력한 일반화를 검증했습니다. ‘
오래된 Deepfake 데이터 세트도 라운드에 포함되었습니다. Celeb-DFV2 (CDF2); 심해 탐지 (DFD); Deepfake 탐지 도전 (DFDC); 그리고 와일드 파크 (DFW).
평가 지표였습니다 곡선 아래의 영역 (AUC); 평균 정밀도; 그리고 의미 F1 점수.

논문에서 : 최근 현지화 된 심해에 대한 비교는 제안 된 방법이 다른 모든 방법을 능가했으며, AUC에서 15 ~ 20 %의 이득과 다음 최고 접근법에 대한 평균 정밀도 모두를 능가한다는 것을 보여줍니다.
저자는 또한 국부적으로 조작 된 뷰에 대한 시각적 탐지 비교를 추가로 제공합니다 (공간 부족으로 인해 아래 부분에서만 재생산).

실제 비디오는 세 가지 다른 현지화 된 조작을 사용하여 원본과 시각적으로 유사하게 유지되는 가짜를 생산했습니다. 여기에는 각 방법에 대한 평균 가짜 탐지 점수와 함께 대표 프레임이 표시됩니다. 기존 탐지기는 이러한 미묘한 편집으로 어려움을 겪었지만 제안 된 모델은 일관되게 높은 가짜 확률을 할당하여 현지화 된 변화에 대한 민감도가 높아졌습니다.
연구원들은 다음과 같이 말합니다.
‘[The] 기존 SOTA 탐지 방법, [LAANet],,, [SBI],,, [AltFreezing] 그리고 [CADMM]최신 딥 페이크 생성 방법에 대한 성능이 크게 떨어집니다. 현재의 SOTA 방법은 48-71%의 AUC를 나타내므로 최근의 심해에 대한 일반화 능력이 좋지 않습니다.
반면에, 우리의 방법은 강력한 일반화를 보여 주어 87-93%범위의 AUC를 달성합니다. 평균 정밀도의 경우에도 비슷한 추세가 눈에 띄게 나타납니다. 그림처럼 [below]우리의 방법은 또한 표준 데이터 세트에서 고성능을 일관되게 달성하여 90% AUC를 초과하며 최근 DeepFake 탐지 모델과 경쟁력을 유지하고 있습니다. ‘

전통적인 Deepfake 데이터 세트의 성능은 제안 된 방법이 주요 접근 방식과 경쟁력을 유지하여 다양한 조작 유형에 걸쳐 강력한 일반화를 나타냅니다.
저자들은 이러한 마지막 테스트에는 합리적으로 구식으로 보일 수 있고 2020 년 이전에 도입 된 모델이 포함된다는 것을 관찰합니다.
새로운 모델의 성능에 대한보다 광범위한 시각적 묘사를 통해 저자는 마지막에 광범위한 테이블을 제공하며, 그 중 일부는 여기서 재생산 할 공간이 있습니다.

이 예에서, 실제 비디오는 3 개의 현지화 된 편집을 사용하여 원본과 시각적으로 유사한 가짜를 생산했습니다. 이 조작에 대한 평균 신뢰 점수는 제안 된 방법이 다른 주요 접근법보다 위조를 더 안정적으로 감지했다고 밝혔다. 전체 결과는 소스 PDF의 마지막 페이지를 참조하십시오.
저자는 그들의 방법이 현지화 된 편집을 탐지하기 위해 90 % 이상의 신뢰 점수를 달성했으며, 기존 탐지 방법은 동일한 작업에서 50 % 미만으로 유지되었다고 주장합니다. 그들은이 격차를 접근 방식의 민감성과 일반화에 대한 증거로 해석하며, 이러한 종류의 미묘한 얼굴 조작을 다루는 현재 기술이 직면 한 문제를 나타내는 것으로 해석합니다.
실제 조건에서 모델의 신뢰성을 평가하기 위해 CADMM에 의해 설정된 방법에 따라 저자는 포화 및 대비 조정, 가우시안 블러, 픽셀 화 및 블록 기반 압축 아티팩트, 부가 적 노이즈를 포함하여 일반적인 왜곡으로 수정 된 비디오에서 성능을 테스트했습니다.
결과는 탐지 정확도가 이러한 섭동에서 크게 안정적으로 유지된다는 것을 보여 주었다. 가우스 노이즈를 추가하면 유일한 주목할만한 감소가 발생하여 성능이 약간 떨어졌습니다. 다른 변경은 최소한의 영향을 미쳤다.

다른 비디오 왜곡에서 감지 정확도가 어떻게 변하는지를 보여줍니다. 새로운 방법은 대부분의 경우 탄력성으로 유지되었으며 AUC는 약간만 감소했습니다. 가우스 소음이 도입되었을 때 가장 중요한 하락이 발생했습니다.
저자들은 이러한 발견은 현지화 된 조작을 탐지하는 방법의 능력이 비디오 품질의 전형적인 열화로 인해 쉽게 방해되지 않으며, 실제 환경에서 잠재적 견고성을 지원한다고 제안합니다.
결론
AI 조작은 주로 심해의 전통적인 개념에 주로 공개 의식에 존재하며, 여기서 사람의 정체성은 다른 사람의 신체에 부과되는데, 이는 신원 소유자의 원칙에 맞는 행동을 수행 할 수 있습니다. 이 개념은 생성 비디오 시스템의보다 교활한 기능을 인정하기 위해 천천히 업데이트되고 있습니다 (새로운 품종에서 비디오 심해) 및 일반적으로 잠재 확산 모델 (LDMS)의 기능.
따라서 새로운 논문이 관심을 갖는 지역 편집은 사람들이 펠로시 스타일의 중추적 사건이 발생할 때까지 대중의 관심을 끌지 않을 수 있다고 기대하는 것이 합리적입니다. 비디오 심해 사기.
그럼에도 불구하고 배우 Nic Cage와 마찬가지로 일관된 관심사를 표현했습니다 배우의 공연을 ‘수정’하는 후 프로세스 프로세스의 가능성에 대해, 우리는 또한 이런 종류의 ‘미묘한’비디오 조정에 대한 인식을 높이기 위해 아마도 우리는 본질적으로 얼굴 표정의 매우 작은 변화에 매우 민감하기 때문에 작은 안면 전환의 영향을 크게 변화시킬 수 있기 때문에 (예 : 장례식에서의 방해가되는 것을 고려).
2025 년 4 월 2 일 수요일에 처음 출판되었습니다
게시물 실제 비디오에서 작지만 중요한 AI 편집을 노출시킵니다 먼저 나타났습니다 Unite.ai.