이 후원 기사는 귀하에게 제공됩니다. NYU 탄돈 공과대학.
인공 지능을 사용하여 제작된 초현실적인 비디오 및 오디오인 딥페이크(Deepfake)는 오늘날 디지털 세계에서 점점 더 큰 위협이 되고 있습니다. 콘텐츠를 진짜처럼 보이도록 조작하거나 조작함으로써 딥페이크는 시청자를 속이고, 허위 정보를 퍼뜨리고, 평판을 훼손하는 데 사용될 수 있습니다. 이들의 오용은 정치적 선전, 사회적 조작, 신원 도용, 사이버 범죄까지 확대됩니다.
딥페이크 기술이 더욱 발전하고 널리 접근 가능해짐에 따라 사회적 피해의 위험도 높아집니다. 딥페이크를 연구하는 것은 감지 방법을 개발하고, 인식을 제고하며, 딥페이크가 개인적, 직업적, 글로벌 영역에서 초래할 수 있는 피해를 완화하기 위한 법적 프레임워크를 구축하는 데 매우 중요합니다. 미디어 및 디지털 커뮤니케이션에 대한 신뢰를 유지하려면 딥페이크와 관련된 위험과 잠재적 영향을 이해하는 것이 필요합니다.
바로 그곳이다 친마이 헤그데NYU Tandon의 컴퓨터 공학 및 전기 및 컴퓨터 공학 부교수가 들어옵니다.
“대체로 저는 모든 형태의 AI 안전에 관심이 있습니다. 그리고 AI와 같은 기술이 너무 빠르게 발전하고 너무 빨리 좋아지면 해를 끼칠 사람들이 착취하기에 적합한 영역입니다.”라고 Hegde는 말했습니다.
인도 태생인 Hegde는 텍사스 주 휴스턴을 포함하여 전 세계 여러 곳에서 살았으며 그곳에서 Rice University에서 학생으로 몇 년을 보냈습니다. 매사추세츠주 케임브리지에서 MIT의 TOC(계산 이론) 그룹에서 박사후 연구를 수행했습니다. 그리고 아이오와주 에임스에서 아이오와 주립대학교 전기 및 컴퓨터 공학과 교수로 재직했습니다.
데이터 처리 및 기계 학습 분야의 전문 분야인 Hegde는 이미징 및 컴퓨터 비전, 운송 및 재료 설계에 걸친 응용 분야에서 발생하는 다양한 데이터 처리 문제에 대한 빠르고 강력하며 인증 가능한 알고리즘을 개발하는 데 연구를 집중하고 있습니다. Tandon에서 그는 딥페이크에 대한 관심을 촉발시킨 컴퓨터 과학 및 공학 Nasir Memon 교수와 함께 일했습니다.
“불과 6년 전만 해도 생성 AI 기술은 매우 초보적이었습니다. 한번은 제 학생 중 한 명이 들어와서 모델이 어떻게 어두운 배경에 흰색 원을 만들 수 있는지 보여 주었고 당시 우리 모두는 그것에 깊은 인상을 받았습니다. 이제 Taylor Swift, Barack Obama, 교황의 고화질 가짜가 있습니다. 이 기술이 얼마나 발전했는지는 놀랍습니다. 내 생각에는 여기에서 계속해서 개선될 수 있을 것”이라고 그는 말했다.
Hegde는 실시간 딥페이크(RTDF)의 증가하는 위협에 맞서기 위한 새로운 접근 방식을 개발한 NYU Tandon School of Engineering의 연구팀을 이끄는 데 도움을 주었습니다. 이는 실제 사람을 설득력 있게 모방할 수 있는 정교한 인공 지능 생성 가짜 오디오 및 비디오입니다. 시간 영상 및 음성 통화.
최근 가짜 비디오를 사용한 2,500만 달러 규모의 사기 사건을 포함하여 세간의 이목을 끄는 딥페이크 사기 사건이 이미 발생하고 있으며 효과적인 대응 조치의 필요성은 분명합니다.
두 개의 별도 논문에서 연구팀은 “도전 응답” 기술이 현재 RTDF 생성 파이프라인의 고유한 한계를 어떻게 활용하여 사기를 드러내는 가장의 품질을 저하시킬 수 있는지 보여줍니다.
“라는 제목의 논문에서GOTCHA: 챌린지-응답을 통한 실시간 비디오 딥페이크 탐지연구원들은 실제 사람과 소통하지 않을 때 사용자에게 신호를 보내도록 설계된 8가지 시각적 과제 세트를 개발했습니다.
“대부분의 사람들은 자신이 실제 인간인지 확인하는 온라인 질문-응답인 CAPTCHA에 익숙합니다. 우리의 접근 방식은 해당 기술을 반영하여 본질적으로 RTDF가 적절하게 응답할 수 없는 질문을 하거나 요청을 하는 것입니다.”라고 두 논문의 연구를 주도한 Hegde는 말했습니다.
비디오 연구팀은 47명의 참가자로부터 56,247개의 비디오 데이터 세트를 생성하여 머리 움직임, 의도적으로 얼굴 일부를 가리거나 가리는 등의 문제를 평가했습니다. 인간 평가자들은 딥페이크 탐지에서 약 89%의 AUC(Area Under the Curve) 점수를 달성했으며(80% 이상은 매우 양호한 것으로 간주됨), 기계 학습 모델은 약 73%에 도달했습니다.
“얼굴 앞으로 빠르게 손을 움직이거나, 극적인 표정을 짓거나, 갑자기 조명을 바꾸는 것과 같은 과제는 실제 인간이 수행하기에는 간단하지만, 현재의 딥페이크 시스템이 실시간으로 요청했을 때 설득력 있게 복제하는 것은 매우 어렵습니다. “라고 Hegde가 말했습니다.
딥페이크 탐지를 위한 오디오 과제
또 다른 논문에서는 “Challenge-Response를 사용하여 Deepfake 음성 통화에 대한 AI 지원 태깅” 연구원들은 다양한 카테고리에 걸쳐 22개 오디오 과제의 분류 체계를 만들었습니다. 가장 효과적인 것 중에는 속삭이기, 손을 입에 대고 말하기, 높은 음조로 말하기, 외국어 발음, 배경 음악이나 연설을 통해 말하기 등이 있습니다.
Hegde는 “최첨단 음성 복제 시스템조차도 이러한 특이한 음성 작업을 즉석에서 수행하라는 요청을 받으면 품질을 유지하는 데 어려움을 겪습니다.”라고 말했습니다. “예를 들어, 비정상적으로 높은 음조로 속삭이거나 말하는 것은 오디오 딥페이크의 품질을 크게 저하시킬 수 있습니다.”
오디오 연구에는 100명의 참가자와 160만 개 이상의 딥페이크 오디오 샘플이 포함되었습니다. 인간 단독, AI 단독, 인간-AI 협업 접근 방식이라는 세 가지 탐지 시나리오를 사용했습니다. 인간 평가자는 가짜 탐지에서 약 72%의 정확도를 달성한 반면, AI만으로는 85%의 정확도로 더 나은 성능을 발휘했습니다.
인간이 초기 판단을 내리고 AI 예측을 본 후 결정을 수정할 수 있는 협업 접근 방식은 약 83%의 정확도를 달성했습니다. 또한 이 협업 시스템을 통해 인간이 불확실한 경우 AI가 최종 결정을 내릴 수 있었습니다.
“핵심은 이러한 작업이 실제 사람에게는 쉽고 빠르지만 AI가 실시간으로 위조하기는 어렵다는 것입니다.” —Chinmay Hegde, NYU Tandon
연구원들은 그들의 기술이 실제 사용에 실용적으로 설계되었으며 대부분의 과제를 완료하는 데 몇 초 밖에 걸리지 않는다고 강조합니다. 일반적인 비디오 챌린지는 빠른 손짓이나 표정이 포함될 수 있지만 오디오 챌린지는 짧은 문장을 속삭이는 것만큼 간단할 수 있습니다.
Hegde는 “핵심은 이러한 작업이 실제 사람에게는 쉽고 빠르지만 AI가 실시간으로 가짜로 만들기는 어렵다는 것입니다.”라고 말했습니다. “추가 보안을 위해 과제를 무작위로 지정하고 여러 작업을 결합할 수도 있습니다.”
딥페이크 기술이 계속 발전함에 따라 연구원들은 도전 과제 세트를 개선하고 탐지를 더욱 강력하게 만드는 방법을 모색할 계획입니다. 그들은 특히 여러 작업을 동시에 결합하는 “복합” 과제를 개발하는 데 관심이 있습니다.
Hegde는 “우리의 목표는 사람들에게 정상적인 대화를 방해하지 않으면서 온라인에서 실제로 누구와 대화하고 있는지 확인할 수 있는 신뢰할 수 있는 도구를 제공하는 것입니다.”라고 말했습니다. “AI가 가짜를 만드는 능력이 향상됨에 따라 우리는 가짜를 탐지하는 능력도 향상해야 합니다. 이러한 도전-대응 시스템은 그러한 방향으로 나아가는 유망한 단계입니다.”