시각적 생성 AI에 대한 커뮤니티 및 투자자의 열정에도 불구하고 이러한 시스템의 출력이 항상 실제 사용이 가능한 것은 아닙니다. 한 가지 예는 Gen AI 시스템이 다음을 출력하는 경향이 있다는 것입니다. 전체 이미지 (또는 비디오의 경우 일련의 이미지) 개별적이고 고립된 요소 이는 일반적으로 멀티미디어의 다양한 응용 프로그램과 시각 효과 실무자에게 필요합니다.
이에 대한 간단한 예는 사용자가 선택한 대상 배경 위에 ‘떠다니도록’ 설계된 클립 아트입니다.
이런 종류의 투명성은 30년 넘게 일반적으로 이용 가능했습니다. 1990년대 초 디지털 혁명 이후 사용자는 점점 더 정교해지는 일련의 도구 세트와 기술을 통해 비디오와 이미지에서 요소를 추출할 수 있게 되었습니다.
예를 들어, 한때 값비싼 기술의 범위였던 비디오 장면에서 블루 스크린과 그린 스크린 배경을 ‘제거’하는 문제는 화학 공정 및 광학 프린터 (게다가 손으로 만든 매트)은 Adobe의 After Effects 및 Photoshop 애플리케이션(다른 많은 무료 및 독점 프로그램 및 시스템 중에서)과 같은 시스템에서 몇 분 안에 작업이 될 것입니다.
요소가 격리되면 알파 채널 (효과적으로 관련 없는 콘텐츠를 가리는 마스크)를 사용하면 비디오의 모든 요소를 새로운 배경 위에 쉽게 겹쳐 놓거나 다른 격리된 요소와 함께 합성할 수 있습니다.
중퇴
컴퓨터 비전에서 알파 채널 생성은 다음의 비호에 속합니다. 의미론적 분할Meta와 같은 오픈 소스 프로젝트를 통해 무엇이든 분할하세요 의미론적으로 강화된 개체 인식을 통해 대상 개체를 격리/추출하는 텍스트 프롬프트 방법을 제공합니다.
Segment Anything 프레임워크는 다음과 같은 광범위한 시각 효과 추출 및 격리 워크플로우에서 사용되었습니다. Alpha-CLIP 프로젝트.
있다 많은 대안 알파 채널 할당 작업에 적용할 수 있는 의미론적 분할 방법입니다.
그러나 의미론적 분할은 모든 정보를 포함하지 않을 수 있는 훈련된 데이터에 의존합니다. 객체의 범주 추출해야 하는 항목입니다. 매우 많은 양의 데이터에 대해 훈련된 모델을 통해 더 넓은 범위의 객체를 인식할 수 있지만(효과적으로 기초 모델이 되거나 세계 모델) 그럼에도 불구하고 그들은 가장 효과적으로 인식하도록 훈련받은 클래스에 의해 제한됩니다.
어쨌든 의미론적 분할은 사후에 그린 스크린 절차로 처리하며 효과적으로 인식하고 제거할 수 있는 단일 배경색의 이점 없이 요소를 격리해야 합니다.
이러한 이유로 사용자 커뮤니티에서는 이미지와 비디오가 생성될 수 있다는 문제가 가끔 발생했습니다. 실제로 녹색 화면 배경이 포함되어 있습니다. 기존의 방법으로 즉시 제거할 수 있습니다.
아쉽게도 인기가 잠재 확산 모델 ~와 같은 안정적인 확산 실제로 생생한 녹색 화면을 렌더링하는 데 어려움을 겪는 경우가 많습니다. 이는 모델의 훈련 데이터가 일반적으로 이렇게 전문화된 시나리오의 많은 예를 포함하지 않기 때문입니다. 시스템이 성공하더라도 ‘그린’이라는 개념은 컨셉으로 인해 전경 대상에게 원치 않는 방식으로 퍼지는 경향이 있습니다. 녹채:
사용되는 고급 방법에도 불구하고 여성의 드레스와 남성의 넥타이(위의 아래쪽 이미지 참조)는 모두 녹색 배경과 함께 ‘떨어지는’ 경향이 있었습니다. 이는 광화학 유제 염료 제거 시대로 거슬러 올라가는 문제*입니다. 1970년대와 1980년대.
언제나 그렇듯이 모델의 단점은 문제에 특정 데이터를 적용하고 상당한 교육 리소스를 투자함으로써 극복할 수 있습니다. Stanford의 2024 제품과 같은 시스템 레이어확산 만들기 미세 조정된 알파 채널이 포함된 이미지를 생성할 수 있는 모델:
불행하게도 이 접근 방식에 필요한 상당한 큐레이션 및 교육 리소스 외에도 LayerDiffuse에 사용되는 데이터 세트는 공개적으로 사용할 수 없으므로 이에 대해 교육된 모델의 사용이 제한됩니다. 이러한 장애가 존재하지 않더라도 이 접근 방식은 특정 사용 사례에 맞게 사용자 정의하거나 개발하기가 어렵습니다.
조금 뒤인 2024년에 Adobe Research는 Stonybrook University와 협력하여 마술맞춤형 확산 이미지에 대해 훈련된 AI 추출 접근 방식입니다.
150,000개의 추출된 AI 생성 개체를 사용하여 MAGICK을 훈련시켰으므로 시스템은 추출에 대한 직관적인 이해를 개발할 수 있었습니다.
원본 논문에 따르면 이 데이터 세트는 앞서 언급한 이유로 생성하기가 매우 어려웠습니다. 즉, 확산 방법은 키 지정이 가능한 견고한 색상 띠를 생성하는 데 어려움이 있습니다. 따라서 생성된 매트를 수동으로 선택해야 했습니다.
이러한 물류 병목 현상은 쉽게 개발하거나 사용자 정의할 수 없고 처음에 훈련된 기능 범위 내에서 사용해야 하는 시스템으로 다시 한번 이어집니다.
TKG-DM – 잠재 확산 모델을 위한 ‘네이티브’ 크로마 추출
독일과 일본 연구자 간의 새로운 협력은 특별히 선별된 데이터 세트를 훈련할 필요 없이 위에서 언급한 방법보다 더 나은 결과를 얻을 수 있는 훈련된 방법에 대한 대안을 제안했습니다.
새로운 방법은 세대 수준에서 문제에 접근합니다. 무작위 소음 이미지가 생성되는 곳 잠재 확산 모델 (LDM)과 같은 안정적인 확산.
이 접근 방식은 다음을 기반으로 합니다. 이전 조사 Stable Diffusion 분포의 색상 스키마에 포함되며, 다른 방법에 비해 주요 배경색이 전경 내용에 덜 얽히거나 얽히지 않고 모든 종류의 배경색을 생성할 수 있습니다.
논문에는 다음과 같이 명시되어 있습니다.
‘우리의 광범위한 실험에서는 TKG-DM이 FID와 마스크-FID 점수를 각각 33.7%와 35.9% 향상시키는 것으로 나타났습니다.
‘따라서 우리의 훈련 없는 모델은 정밀 조정 모델과 경쟁하며 정확한 전경 및 배경 제어가 필요한 다양한 시각적 콘텐츠 제작 작업에 효율적이고 다양한 솔루션을 제공합니다. ‘
그만큼 새 종이 제목이 붙어있다 TKG-DM: 훈련이 필요 없는 크로마키 콘텐츠 생성 확산 모델도쿄의 호세이 대학교와 카이저슬라우테른의 RPTU Kaiserslautern-Landau & DFKI GmbH의 연구원 7명이 참여하고 있습니다.
방법
새로운 접근 방식은 다음을 통해 초기 가우스 노이즈를 조절하여 Stable Diffusion의 아키텍처를 확장합니다. 채널 평균 교대 (CMS)는 생성된 결과에서 원하는 배경/전경 분리를 장려하도록 설계된 노이즈 패턴을 생성합니다.
CMS는 노이즈 제거 프로세스의 일반적인 개발을 유지하면서 각 색상 채널의 평균을 조정합니다.
저자는 다음과 같이 설명합니다.
‘크로마키 배경에 전경 객체를 생성하기 위해 초기 노이즈 선택 전략을 선택적으로 결합하는 초기화 노이즈 선택 전략을 적용합니다. [noise] 그리고 초기 색상 [noise] 2D 가우스를 사용하여 [mask].
‘이 마스크는 전경 영역의 원래 노이즈를 유지하고 색상 변화 노이즈를 배경 영역에 적용하여 점진적인 전환을 만듭니다.’
자기 관심 그리고 교차주의 이미지의 두 측면(크로마 배경과 전경 내용)을 분리하는 데 사용됩니다. Self Attention은 전경 개체의 내부 일관성을 유지하는 데 도움이 되는 반면, Cross-Attention은 텍스트 프롬프트에 대한 충실도를 유지합니다. 논문에서는 배경 이미지가 일반적으로 덜 상세하고 여러 세대에 걸쳐 강조되기 때문에 배경 이미지의 약한 영향력은 비교적 쉽게 극복하고 순수한 색상 견본으로 대체할 수 있다고 지적합니다.
데이터 및 테스트
TKG-DM은 Stable Diffusion V1.5 및 Stable Diffusion SDXL을 사용하여 테스트되었습니다. 이미지는 각각 512x512px 및 1024x1024px로 생성되었습니다.
이미지는 다음을 사용하여 생성되었습니다. 스케줄러 없음 안정 확산에 기본 안내 규모 7.5, 50단계의 노이즈 제거 단계. 대상 배경색은 녹색이었지만 이제 우세한 드롭아웃 방식.
새로운 접근 방식을 다음과 비교했습니다. 딥플로이드MAGICK에 사용되는 설정에서; 미세하게 조정된 것까지 저위 확산 모델 그린백 LoRA; 그리고 앞서 언급한 LayerDiffuse에도 적용됩니다.
데이터에는 MAGICK 데이터 세트의 3000개 이미지가 사용되었습니다.
측정항목의 경우 작성자는 다음을 사용했습니다. 프레셰 시작 거리 (FID) 전경 품질을 평가합니다. 그들은 또한 m-FID라는 프로젝트별 지표를 개발했습니다. BiRefNet 결과 마스크의 품질을 평가하는 시스템입니다.
입력 프롬프트와의 의미적 정렬을 테스트하려면 CLIP-문장(CLIP-S) 및 CLIP-이미지(CLIP-I) 방법이 사용되었습니다. CLIP-S는 신속한 충실도를 평가하고, CLIP-I는 지상 진실과의 시각적 유사성을 평가합니다.
저자는 결과(위 및 아래에 각각 SD1.5 및 SDXL로 시각화됨)가 TKG-DM이 즉각적인 엔지니어링이나 모델 훈련 또는 미세 조정의 필요성 없이 우수한 결과를 얻는다는 것을 입증한다고 주장합니다.
그들은 생성된 결과에 녹색 배경을 유발하라는 메시지가 표시되면서 Stable Diffusion 1.5는 깨끗한 배경을 생성하는 데 어려움을 겪는 반면 SDXL(약간 더 나은 성능을 발휘하지만)은 크로마 프로세스에서 분리를 방해하기 쉬운 불안정한 밝은 녹색 색조를 생성한다는 것을 관찰했습니다.
그들은 또한 LayerDiffuse가 잘 구분된 배경을 생성하지만 때때로 정확한 숫자나 문자와 같은 세부 정보를 잃으며 저자는 이를 데이터 세트의 한계로 간주합니다. 그들은 마스크 생성도 때때로 실패하여 ‘잘라내지 않은’ 이미지로 이어진다고 덧붙였습니다.
정량적 테스트의 경우 LayerDiffuse가 FID용 SDXL에 분명히 이점이 있지만 저자는 이것이 ‘구워진’ 비유연성 제품을 효과적으로 구성하는 특수 데이터 세트의 결과임을 강조합니다. 앞서 언급했듯이 해당 데이터 세트에 포함되지 않거나 부적절하게 포함된 객체나 클래스는 성능이 좋지 않을 수 있으며, 새로운 클래스를 수용하기 위해 추가로 미세 조정하면 사용자에게 큐레이션 및 교육 부담이 가해집니다.
논문에는 다음과 같이 명시되어 있습니다.
‘DeepFloyd의 높은 FID, m-FID 및 CLIP-I 점수는 DeepFloyd의 출력을 기반으로 한 지상 실제값과의 유사성을 반영합니다. 그러나 이러한 정렬은 고유한 이점을 제공하므로 이미지 품질에 대한 공정한 벤치마크로는 적합하지 않습니다. CLIP-S 점수가 낮다는 것은 다른 모델에 비해 텍스트 정렬이 약하다는 것을 의미합니다.
전반적으로 이러한 결과는 미세 조정 없이 고품질의 텍스트 정렬 전경을 생성하는 우리 모델의 능력을 강조하여 효율적인 크로마 키 콘텐츠 생성 솔루션을 제공합니다.’
마지막으로 연구원들은 다양한 방법에 걸쳐 신속한 준수 여부를 평가하기 위해 사용자 연구를 수행했습니다. 100명의 참가자에게 BiRefNet을 사용하여 주제를 추출하고 모든 예를 수동으로 개선하여 각 방법에서 30개의 이미지 쌍을 판단하도록 요청했습니다. 본 연구에서는 저자의 훈련 없는 접근 방식이 선호되었습니다.
TKG-DM은 인기 있는 컨트롤넷 Stable Diffusion을 위한 타사 시스템이며 저자는 이러한 종류의 분리를 달성하는 ControlNet의 기본 기능보다 우수한 결과를 생성한다고 주장합니다.
결론
아마도 이 새로운 논문에서 가장 주목할만한 점은 새로운 콘텐츠를 생성할 때 이미지와 비디오의 측면을 쉽게 분리할 수 있다는 대중의 인식과 달리 잠재 확산 모델이 얽혀 있는 정도일 것입니다.
이 연구는 연구 및 취미 커뮤니티가 미세 조정으로 전환한 정도를 더욱 강조합니다. 사후에 모델의 단점 수정 – 항상 특정 클래스 및 객체 유형을 해결하는 솔루션입니다. 이러한 시나리오에서 미세 조정된 모델은 제한된 수의 클래스에서 매우 잘 작동하거나 그렇지 않으면 작동합니다. 참을 수 있을 정도로 훈련 세트에 있는 더 많은 양의 데이터에 따라 훨씬 더 많은 양의 가능한 클래스와 객체가 가능합니다.
그러므로 그렇게 힘들고 틀림없이 솔직하지 못한 해결책에 의존하지 않는 적어도 하나의 해결책을 보는 것은 상쾌한 일입니다.
* 1978년 영화 촬영 초인배우 크리스토퍼 리브는 다음을 착용해야 했습니다. 터키 옥 상징적인 파란색 의상이 지워지는 것을 방지하기 위한 블루 스크린 프로세스 샷용 슈퍼맨 의상입니다. 의상의 파란색은 나중에 컬러 그레이딩을 통해 복원되었습니다.
게시물 안정적인 확산을 위한 그린 스크린 생성 개선 처음 등장한 Unite.AI.