실제 신원은 합성 데이터 세트에서 복구 가능

Date:

원본 이미지(상단) 및 추론된 이미지(하단)를 포함하여 '합성 얼굴 공개: 합성 데이터 세트가 실제 신원을 노출하는 방법' 논문의 샘플 비교 이미지.

2022년이 생성 AI의 파괴적인 잠재력이 처음으로 대중의 관심을 끌었던 순간이었다면, 2024년은 그 능력을 활용하고자 하는 기업들이 기본 데이터의 합법성에 대한 질문이 중심 무대에 오른 해였습니다.

미국의 공정 사용 원칙학술 및 상업 연구 부문에서 생성적 AI를 탐구할 수 있도록 오랫동안 허용해 온 암묵적인 학문적 허가와 함께, 점점 더 불가능해졌습니다. 표절의 증거 표면화. 그 후 미국은 현재로서는 허용되지 않는 AI가 생성한 콘텐츠에 저작권이 보호됩니다.

이러한 문제는 아직 해결되지 않았으며 즉시 해결되지도 않았습니다. 2023년에는 부분적으로 미디어와 대중의 관심 증가 AI 생성 결과물의 법적 지위에 대해 미국 저작권청은 생성 AI의 이러한 측면에 대한 수년간의 조사를 시작했습니다. 첫 번째 세그먼트 (디지털 복제 관련) 2024년 7월.

한편, 최종적으로 최종 법률과 정의가 나올 때 활용하려는 값비싼 모델이 법적 파급 효과에 노출될 수 있다는 가능성 때문에 비즈니스 이해관계는 여전히 좌절감을 느끼고 있습니다.

비용이 많이 드는 단기 솔루션은 기업이 활용할 권리가 있는 데이터에 대해 생성 모델을 교육하여 생성 모델을 합법화하는 것이었습니다. Adobe의 텍스트-이미지 변환(그리고 현재 텍스트-비디오) Firefly 아키텍처는 주로 구입 2014년 Fotolia 스톡 이미지 데이터세트의 보충된 저작권이 만료된 공개 도메인 데이터*를 사용하여. 동시에 Getty와 Shutterstock과 같은 기존 스톡 사진 공급업체는 대문자로 표기 콘텐츠 라이센스 거래가 늘어나거나 자체 IP 호환 GenAI 시스템을 개발하는 등 라이센스 데이터의 새로운 가치에 대해 알아봅니다.

합성 솔루션

훈련된 데이터에서 저작권이 있는 데이터를 제거한 이후 잠재 공간 AI 모델의 문제가 가득한이 영역의 실수는 기계 학습을 사용하는 소비자 및 비즈니스 솔루션을 실험하는 회사에 잠재적으로 매우 큰 비용을 초래할 수 있습니다.

컴퓨터 비전 시스템을 위한 대안이자 훨씬 저렴한 솔루션(및 또한 대규모 언어 모델 또는 LLM)의 사용은 다음과 같습니다 합성 데이터여기서 데이터 세트는 무작위로 생성된 대상 도메인의 예(예: 얼굴, 고양이, 교회 또는 더 일반화된 데이터 세트)로 구성됩니다.

thispersondoesnotexist.com과 같은 사이트는 오래 전에 ‘비실제’ 사람들의 진짜처럼 보이는 사진을 합성할 수 있다는 아이디어를 대중화했습니다(이 특별한 경우에는 Generative Adversarial Networks를 통해 또는 GAN) 현실 세계에 실제로 존재하는 사람들과 아무런 관련이 없습니다.

따라서 이러한 추상적이고 비현실적인 사례를 바탕으로 얼굴 인식 시스템이나 생성 시스템을 훈련하면 이론적으로 데이터가 법적으로 사용 가능한지 여부를 고려할 필요 없이 AI 모델에 대한 사실적인 생산성 표준을 얻을 수 있습니다.

균형법

문제는 합성 데이터를 생성하는 시스템 자체가 실제 데이터에 대해 학습된다는 것입니다. 해당 데이터의 흔적이 합성 데이터로 유출되는 경우 이는 제한적이거나 승인되지 않은 자료가 금전적 이득을 위해 이용되었다는 증거가 될 가능성이 있습니다.

이를 방지하고 진정한 ‘무작위’ 이미지를 생성하려면 이러한 모델이 잘 작동하는지 확인해야 합니다.일반화된. 일반화 훈련된 AI 모델이 높은 수준의 개념(예: ‘얼굴’, ‘남성’또는 ‘여성’) 실제 훈련 데이터를 복제하지 않고.

불행하게도 훈련된 시스템이 생산(또는 인식)하는 것은 어려울 수 있습니다. 세분화된 세부정보 데이터 세트에 대해 상당히 광범위하게 훈련하지 않는 한. 이로 인해 시스템이 다음 위험에 노출됩니다. 암기: 실제 훈련 데이터의 예를 어느 정도 재현하려는 경향.

이는 좀 더 편안한 설정을 통해 완화될 수 있습니다. 학습률또는 핵심 개념이 여전히 유연하고 특정 데이터 포인트(예: 얼굴 데이터세트의 경우 사람의 특정 이미지)와 연관되지 않는 단계에서 훈련을 종료합니다.

그러나 시스템이 대상 도메인의 ‘기본’을 넘어 세부 사항까지 진행할 기회를 얻지 못했기 때문에 이 두 가지 해결 방법 모두 세부 사항이 덜 세밀한 모델로 이어질 가능성이 높습니다.

따라서 과학 문헌에서는 일반적으로 매우 높은 학습률과 포괄적인 훈련 일정이 적용됩니다. 연구자들은 일반적으로 최종 모델에서 광범위한 적용 가능성과 세분성 사이에서 절충을 시도하지만 약간 ‘기억된’ 시스템이라도 초기 테스트에서도 자신을 잘 일반화된 것으로 잘못 나타낼 수 있습니다.

얼굴 공개

이는 합성 데이터를 구동하는 원본 실제 이미지가 이론적으로 완전히 무작위여야 하는 생성된 이미지에서 복구될 수 있음을 최초로 입증했다고 주장하는 스위스의 흥미로운 새 논문을 소개합니다.

훈련 데이터에서 유출된 얼굴 이미지 예시. 위의 행에는 원본(실제) 이미지가 표시됩니다. 아래 행에서는 무작위로 생성된 이미지를 볼 수 있는데, 이는 실제 이미지와 상당히 일치합니다. 출처: https://arxiv.org/pdf/2410.24015

훈련 데이터에서 유출된 얼굴 이미지 예시. 위 행에서는 원본(실제) 이미지를 볼 수 있습니다. 아래 행에서는 무작위로 생성된 이미지를 볼 수 있는데, 이는 실제 이미지와 상당히 일치합니다. 출처: https://arxiv.org/pdf/2410.24015

저자들은 그 결과가 ‘합성’ 생성기가 더 큰 세분성을 찾기 위해 훈련 데이터 포인트 중 상당수를 실제로 기억했음을 나타낸다고 주장합니다. 그들은 또한 AI 생산자를 법적 결과로부터 보호하기 위해 합성 데이터에 의존하는 시스템이 이와 관련하여 매우 신뢰할 수 없음을 나타냅니다.

연구원들은 6개의 최첨단 합성 데이터 세트에 대한 광범위한 연구를 수행하여 모든 경우에 원본(잠재적으로 저작권이 있거나 보호되는) 데이터를 복구할 수 있음을 보여주었습니다. 그들은 다음과 같이 논평합니다:

‘우리의 실험은 최첨단 합성 얼굴 인식 데이터 세트에 생성기 모델의 훈련 데이터 샘플과 매우 가까운 샘플이 포함되어 있음을 보여줍니다. 어떤 경우에는 합성 샘플에 원본 이미지에 대한 작은 변경 사항이 포함되어 있지만, 어떤 경우에는 생성된 샘플에 신원이 유지되면서 더 많은 변형(예: 다른 포즈, 조명 조건 등)이 포함되어 있음을 관찰할 수도 있습니다.

‘이는 생성기 모델이 훈련 데이터로부터 신원 관련 정보를 학습하고 기억하고 있으며 유사한 신원을 생성할 수 있음을 시사합니다. 이는 생체 인식 및 얼굴 인식과 같이 개인 정보 보호에 민감한 작업에 합성 데이터를 적용하는 것과 관련하여 심각한 우려를 불러일으킵니다.’

그만큼 종이 제목이 붙어있다 합성 얼굴 공개: 합성 데이터 세트가 실제 신원을 노출하는 방법Martigny의 Idiap 연구소, École Polytechnique Fédérale de Lausanne(EPFL) 및 로잔의 University of Lausanne(UNIL)의 두 연구원이 참여합니다.

방법, 데이터 및 결과

연구에서 기억된 얼굴이 공개되었습니다. 멤버십 추론 공격. 개념이 복잡해 보이지만 설명이 매우 필요합니다. 이 경우 멤버십 추론은 찾고 있는 데이터와 일치하거나 상당히 유사한 데이터가 나타날 때까지 시스템에 질문하는 프로세스를 의미합니다.

연구에서 추론된 데이터 소스의 추가 예입니다. 이 경우 소스 합성 이미지는 DCFace 데이터세트에서 가져온 것입니다.

연구에서 추론된 데이터 소스의 추가 예입니다. 이 경우 소스 합성 이미지는 DCFace 데이터세트에서 가져온 것입니다.

연구원들은 (실제) 데이터세트 소스가 알려진 6개의 합성 데이터세트를 연구했습니다. 문제의 실제 데이터세트와 가짜 데이터세트 모두 매우 많은 양의 이미지를 포함하고 있기 때문에 이는 사실상 건초 더미에서 바늘을 찾는 것과 같습니다.

따라서 저자는 기성 얼굴 인식 모델을 사용했습니다.ResNet100 훈련된 백본 에이다페이스 손실 함수 (에 웹페이스12M 데이터 세트).

사용된 6개의 합성 데이터 세트는 다음과 같습니다. DC페이스 (잠재 확산 모델); IDiff-얼굴 (Uniform – FFHQ를 기반으로 한 확산 모델); IDiff-Face(2단계 – 다른 샘플링 방법을 사용하는 변형) 간디프얼굴 (Generative Adversarial Networks 및 Diffusion 모델을 기반으로 스타일GAN3 초기 신원을 생성한 다음 드림부스 다양한 예를 만들기 위해) IDNet (GAN 방법을 기반으로 함) 스타일GAN-ADA); 그리고 에스페이스 (신원 보호 프레임워크).

GANDiffFace는 GAN과 확산 방법을 모두 사용하므로 이 네트워크가 제공하는 ‘실제 얼굴’ 원점에 가장 가까운 StyleGAN의 훈련 데이터 세트와 비교되었습니다.

저자는 AI 방법이 아닌 CGI를 사용하는 합성 데이터 세트를 제외하고 결과 평가에서 분포 이상으로 인해 어린이에 대한 할인된 일치 항목과 얼굴이 아닌 이미지(웹 스크래핑이 이루어지는 얼굴 데이터 세트에서 자주 발생할 수 있음)를 제외했습니다. 시스템은 얼굴과 유사한 특성을 가진 물체나 인공물에 대해 오탐지를 생성합니다.

코사인 유사성 검색된 모든 쌍에 대해 계산되었으며 아래 그림과 같이 히스토그램으로 연결되었습니다.

다양한 데이터 세트에서 계산된 코사인 유사성 점수에 대한 히스토그램 표현과 상위 k 쌍에 대한 관련 유사성 값(점선 수직선)입니다.

다양한 데이터 세트에서 계산된 코사인 유사성 점수에 대한 히스토그램 표현과 상위 k 쌍에 대한 관련 유사성 값(점선 수직선)입니다.

유사점 수는 위 그래프의 스파이크로 표시됩니다. 이 백서는 또한 6개 데이터 세트의 샘플 비교와 원본(실제) 데이터 세트의 해당 추정 이미지를 제공하며 그 중 일부 선택 사항은 아래에 나와 있습니다.

독자가 보다 포괄적인 선택을 위해 참조할 수 있는 원본 논문에 재현된 많은 사례의 샘플입니다.

독자가 보다 포괄적인 선택을 위해 참조할 수 있는 원본 논문에 재현된 많은 사례의 샘플입니다.

논문에서는 다음과 같이 논평합니다.

‘[The] 생성된 합성 데이터 세트에는 생성기 모델의 훈련 세트와 매우 유사한 이미지가 포함되어 있어 이러한 신원 생성에 대한 우려가 제기됩니다.’

저자는 이 특정 접근 방식의 경우 필요한 계산이 매우 부담스럽기 때문에 대용량 데이터 세트로 확장하는 것이 비효율적일 수 있다고 지적합니다. 그들은 일치 여부를 추론하기 위해 시각적 비교가 필요하며 자동화된 얼굴 인식만으로는 더 큰 작업에 충분하지 않을 가능성이 높다는 점을 추가로 관찰했습니다.

연구의 의미와 앞으로의 전망에 관해 연구에서는 다음과 같이 설명합니다.

‘[We] 합성 데이터 세트를 생성하는 주요 동기는 대규모 웹 크롤링 얼굴 데이터 세트 사용 시 개인 정보 보호 문제를 해결하는 것임을 강조하고 싶습니다.

따라서 합성 데이터 세트에서 민감한 정보(예: 훈련 데이터의 실제 이미지 신원)가 유출되면 생체 인식과 같이 개인 정보 보호에 민감한 작업에 합성 데이터를 적용하는 것과 관련하여 심각한 우려가 제기됩니다. 우리의 스터드 y는 합성 얼굴 인식 데이터 세트 생성 시 개인 정보 보호 문제를 조명하고 책임감 있는 합성 얼굴 데이터 세트 생성을 위한 향후 연구의 길을 열어줍니다.’

저자는 이 작업에 대한 코드 릴리스를 약속했지만 프로젝트 페이지현재 저장소 링크가 없습니다.

결론

최근 언론의 관심이 집중되면서 수익 감소 AI 생성 데이터에 대해 AI 모델을 훈련하여 얻은 것입니다.

그러나 새로운 스위스 연구는 생성 AI를 활용하고 이익을 얻으려는 기업이 점점 더 많아질수록 더욱 시급해질 수 있는 고려 사항, 즉 IP로 보호되거나 승인되지 않은 데이터 패턴이 데이터 세트에서도 지속된다는 점에 초점을 맞췄습니다. 이러한 관행에 맞서기 위해 고안되었습니다. 굳이 정의하자면 이 경우에는 ‘세안’이라고 부를 수도 있을 것 같습니다.

* 그러나 사용자가 업로드한 AI 생성 이미지를 Adobe Stock에 허용하기로 한 Adobe의 결정은 이 데이터의 법적 ‘순수성’을 효과적으로 훼손했습니다. 블룸버그 주장하다 2024년 4월에는 MidJourney 생성 AI 시스템의 사용자 제공 이미지가 Firefly의 기능에 통합되었습니다.

이 모델은 논문에서 확인되지 않습니다.

2024년 11월 6일 수요일 첫 게시

게시물 실제 신원은 합성 데이터 세트에서 복구 가능 처음 등장한 Unite.AI.

Share post:

Subscribe

Popular

More like this
Related

생성 AI 활용: 업계 리더를 위한 대담한 도전과 보상

조직이 AI의 잠재력을 계속 탐구함에 따라 Microsoft 고객은 워크플로를...

식품 안전 분야에서 AI의 필요성 증가

특히 광범위한 조류독감 발생의 영향이 농업 부문 전반에 걸쳐...

12월23일 정부지원사업 신규 공고 리스트 (12건) _ (파일 재가공/재배포 가능)

12월 23일 12건<12/23지원사업 신규 공고 목록> *전 영업일인 12/20에 올라온...

Waste Robotics와 Greyparrot가 분류 로봇을 강화하는 방법

Waste Robotics는 FANUC 로봇 팔을 사용하여 안정적이고 정확한 피킹을...