AI 이미지 편집의 정확도 향상

Date:

종이의 이미지 '타이트한 반전 : 실제 이미지 편집을위한 이미지 조건 반전'

Adobe이지만 파이어 플라이 잠재적 인 확산 모델 (LDM)은 아마도 현재 사용 가능한 가장 좋은 것 중 하나이며, 생성 기능을 시도한 Photoshop 사용자 기존 이미지를 편집합니다 – 대신 완전히 대체물 사용자의 텍스트 프롬프트를 기반으로 이미지가있는 사용자의 선택된 영역 (Firefly는 결과 생성 섹션을 이미지의 컨텍스트에 통합하는 데 능숙합니다).

현재 베타 버전에서는 Photoshop이 적어도 가능합니다 참조 이미지를 통합합니다 부분 이미지 프롬프트로서, Adobe의 플래그십 제품을 기능하는 기능까지 안정적인 확산 사용자는 다음과 같은 타사 프레임 워크 덕분에 2 년 이상 즐겼습니다. Controlnet:

Adobe Photoshop의 현재 베타 베타는 선택 내에서 새로운 컨텐츠를 생성 할 때 참조 이미지를 사용할 수 있습니다.

Adobe Photoshop의 현재 베타 베타는 선택 내에서 새로운 컨텐츠를 생성 할 때 참조 이미지를 사용할 수 있습니다.

이는 이미지 합성 연구에서 열린 문제를 보여줍니다. 확산 모델이 사용자가 지시 한 선택의 본격적인 ‘재구성’을 구현하지 않고 기존 이미지를 편집하는 데 어려움이 있습니다.

이 확산 기반 인 페인트는 사용자의 프롬프트에 순종하지만 원본 이미지를 고려하지 않고 소스 주제를 완전히 재창조합니다 (새로운 세대와 환경과 혼합하는 경우 제외). 출처 : https://arxiv.org/pdf/2502.20376

이 확산 기반 인 페인트는 사용자의 프롬프트에 순종하지만 원본 이미지를 고려하지 않고 소스 주제를 완전히 재창조합니다 (새로운 세대와 환경과 혼합하는 경우 제외). 출처 : https://arxiv.org/pdf/2502.20376

이 문제는 LDM이 이미지를 생성하기 때문에 발생합니다 반복적 인 비난여기서 프로세스의 각 단계는 사용자가 제공하는 텍스트 프롬프트에 조절됩니다. 텍스트 프롬프트 컨텐츠로 변환됩니다 임베딩 토큰그리고 프롬프트와 관련된 수십만 명 (또는 수백만)의 거의 일치하는 임베딩을 함유하는 안정적인 확산 또는 플럭스와 같은 초 저격 모델을 사용하여 프로세스는 계산되었습니다. 조건부 분포 목표를 목표로; 그리고 각 단계는이 ‘조건부 분포 목표’를 향한 단계입니다.

그래서 그것은 이미지에 대한 텍스트입니다 – 사용자가 ‘최선을 다하기를 희망하는’시나리오.

대신, 많은 사람들이 기존 이미지를 편집하기 위해 LDM의 강력한 생성 능력을 사용하려고했지만 이는 충실도와 유연성 사이의 균형 행동을 수반합니다.

이미지가 모델의 잠복 공간에 다음과 같은 방법으로 투사 될 때 반전 없음목표는 여전히 의미있는 편집을 허용하면서 원본을 가능한 한 가깝게 복구하는 것입니다. 문제는 이미지가 더 정확하게 재구성 될수록 모델이 그에 더 많이 준수한다는 것입니다. 원래의 주요 수정을 어렵게 만드는 구조.

최근 몇 년 동안 제안 된 다른 많은 확산 기반 이미지 편집 프레임 워크와 함께, Renoise Architecture는 이미지의 외관을 실제로 바꾸는 데 어려움을 겪고 있으며, 고양이의 목구멍에 나비 넥타이가 나타납니다.

최근 몇 년 동안 제안 된 다른 많은 확산 기반 이미지 편집 프레임 워크와 함께, Renoise Architecture는 이미지의 외관을 실제로 바꾸는 데 어려움을 겪고 있으며, 고양이의 목구멍에 나비 넥타이가 나타납니다.

반면에, 프로세스가 편집 가능성을 우선시하면 모델은 원본의 그립을 풀어 변경을보다 쉽게 ​​도입 할 수 있지만 소스 이미지와의 전반적인 일관성 비용으로

미션이 성취-그러나 대부분의 AI 기반 이미지 편집 프레임 워크에 대한 조정보다는 변환입니다.

미션이 성취-그러나 대부분의 AI 기반 이미지 편집 프레임 워크에 대한 조정보다는 변환입니다.

Adobe의 상당한 자원조차도 해결하기 위해 고군분투하는 것은 문제이기 때문에, 우리는 도전이 주목할 만하고 쉬운 솔루션을 허용하지 않을 수 있다고 합리적으로 고려할 수 있습니다.

단단한 반전

따라서 이번 주에 발표 된 새로운 논문의 예는 저의 관심을 끌었습니다.이 작업은이 영역의 현재 최신 기술에 대한 가치 있고 주목할만한 개선을 제공하여 모델의 잠재적 인 공간에 투사 된 이미지에 미묘하고 정제 된 편집을 적용 할 수 있음을 증명함으로써 소스 이미지에서 원래 콘텐츠를 압도적이지 않고 모델의 잠재적 인 공간에 미묘하고 정제 된 편집을 적용 할 수 있습니다.

기존 반전 방법에 엄격한 반전이 적용되면 소스 선택은 훨씬 더 세분화 된 방식으로 고려되며 변환은이를 덮어 쓰는 대신 원래 자료를 준수합니다.

기존 반전 방법에 엄격한 반전이 적용되면 소스 선택은 훨씬 더 세분화 된 방식으로 고려되며 변환은 그것을 덮어 쓰는 대신 원래 자료를 준수합니다.

LDM 애호가와 실무자들은 이러한 종류의 결과를 인식 할 수 있습니다. Controlnet 및와 같은 외부 시스템을 사용하여 복잡한 워크 플로우에서 생성 될 수 있기 때문입니다. IP 어래지터.

실제로 새로운 방법 – 더빙 단단한 반전 -실제로 인간 묘사를 위해 전용 페이스 기반 모델과 함께 IP 자산을 활용합니다.

원래의 2023 IP 어래지지 용지에서, 응용 프로그램을 제작하는 예를 소스 자료로 제작하는 예. 출처 : https://arxiv.org/pdf/2308.06721

원래의 2023 IP 어래지지 용지에서, 응용 프로그램을 제작하는 예를 소스 자료로 제작하는 예. 출처 : https://arxiv.org/pdf/2308.06721

따라서 엄격한 반전의 신호 달성은 가장 인기있는 LDM 분포를 포함하여 기존 시스템에 적용될 수있는 단일 드롭 인 플러그인 방식으로 절차 화 된 복잡한 기술을 갖는 것입니다.

당연히, 이는 활용하는 겸임 시스템과 마찬가지로 타이트한 반전 (TI)은 소스 이미지를 정확한 텍스트 프롬프트에만 의존하는 대신 자체 편집 버전의 조절 요인으로 사용한다는 것을 의미합니다.

단단한 반전이 소스 자료에 진정으로 혼합 된 편집을 적용하는 능력의 추가 예.

단단한 반전의 추가적인 반전이 소스 자료에 진정으로 혼합 된 편집을 적용하는 능력의 추가 예.

저자의 접근 방식은 확산 기반 이미지 편집 기술에서 충실도와 편집성 사이의 전통적이고 지속적인 긴장이 없다는 것을 인정하지만, 기존 시스템에 TI를 주입 할 때 최첨단 결과를보고합니다.

그만큼 새로운 작품 제목이 있습니다 단단한 반전 : 실제 이미지 편집을위한 이미지 조건 반전텔 아비브 대학교 (Tel Aviv University)와 스냅 리서치 (Snap Research)의 5 명의 연구원에서 나왔습니다.

방법

처음에는 큰 언어 모델 (LLM)이 이미지가 생성되는 다양한 텍스트 프롬프트 세트를 생성하는 데 사용됩니다. 그런 다음 상기 언급 된 DDIM 반전이 각 이미지에 적용됩니다. 세 가지 텍스트 조건이 있습니다: 이미지를 생성하는 데 사용되는 텍스트 프롬프트; 동일의 단축 버전; 그리고 널 (빈) 프롬프트.

이러한 프로세스에서 거꾸로 된 노이즈가 반환되면 이미지는 다시 동일한 조건으로 재생됩니다. 분류기가없는 지침 (CFG).

DDIM 반전은 다양한 프롬프트 설정으로 다양한 메트릭스에서 점수를 매 깁니다.

DDIM 반전은 다양한 프롬프트 설정으로 다양한 메트릭스에서 점수를 매 깁니다.

위의 그래프에서 볼 수 있듯이 다양한 메트릭의 점수는 텍스트 길이가 증가함에 따라 향상됩니다. 사용 된 지표는있었습니다 피크 신호 ​​대 잡음비 (PSNR); L2 거리; 구조적 유사성 지수 (SSIM); 그리고 배운 지각 이미지 패치 유사성 (LPIPS).

이미지 의식

효과적으로 강한 반전은 호스트 확산 모델이 텍스트에만 의존하지 않고 이미지 자체의 반전 프로세스를 조절하여 실제 이미지를 편집하는 방법을 변경합니다.

일반적으로 이미지를 확산 모델의 노이즈 공간으로 반전 시키려면 비출 할 때 입력을 재구성하는 시작 노이즈를 추정해야합니다. 표준 방법은 텍스트 프롬프트를 사용 하여이 프로세스를 안내합니다. 그러나 불완전한 프롬프트는 오류, 세부 사항을 잃거나 구조를 변경할 수 있습니다.

타이트한 반전은 대신 IP 어댑터를 사용하여 시각 정보를 모델에 공급하여 더 큰 정확도로 이미지를 재구성하여 소스 이미지를 컨디셔닝 토큰으로 변환하고 반전 파이프 라인으로 투사합니다.

이러한 매개 변수는 편집 가능합니다. 소스 이미지의 영향을 높이면 재구성이 거의 완벽하게 만들어지면서 더 창의적인 변화를 줄일 수 있습니다. 이로 인해 셔츠 색상 변경과 같은 미묘한 수정 또는 객체 교환과 같은 더 중요한 편집과 같은 미묘한 수정에 유용한 반전은 미세한 세부 사항 손실 또는 배경 내용의 예상치 못한 수차와 같은 다른 반전 방법의 일반적인 부작용없이 객체를 교환하는 것과 같은 더 중요한 편집에 유용합니다.

저자 상태 :

‘우리는 엄격한 역전을 이전 반전 방법 (예 : 친숙한 DDPM 편집, Renoise)과 쉽게 통합 할 수 있습니다. [switching the native diffusion core for the IP Adapter altered model],,, [and] 엄격한 반전은 재구성과 편집성 측면에서 이러한 방법을 지속적으로 향상시킵니다. ‘

데이터 및 테스트

연구원들은 실제 세계 소스 이미지를 재구성하고 편집 할 수있는 능력에 대해 TI를 평가했습니다. 사용 된 모든 실험 안정적인 확산 XL 다음에 요약 된 DDIM 스케줄러가 있습니다 원래 안정된 확산 종이; 그리고 모든 테스트는 기본 안내 척도 7.5에서 50 개의 데노이징 단계를 사용했습니다.

이미지 컨디셔닝의 경우 IP-Adapter-Plus SDXL VIT-H 사용되었습니다. 몇 단계 테스트의 경우 연구원들이 사용했습니다 sdxl-turbo 오일러 스케줄러와 함께 실험을 수행했습니다 플럭스 .1-Dev후자의 경우 모델을 컨디셔닝합니다 Pulid-Flux사용 RF 반전 28 단계에서.

Pulid는 인간의 얼굴을 특징으로하는 경우에만 사용되었는데, 이것은 Pulid가 해결하도록 훈련 된 영역이기 때문에, 특수 하위 시스템 이이 하나의 가능한 신속한 유형에 사용된다는 점에 주목할 만하지 만, 인간의 얼굴을 생성하는 데 대한 우리의 우리의 관심있는 우리의 관심사는 우리 가이 일을 요구하는 것과 같이 우리 가이 작업에 대한 표정에 대한 표정에 대한 적정이 아닐 수도 있음을 시사합니다.

정 성적 및 정량적 평가를 위해 재구성 테스트를 수행 하였다. 아래 이미지에서는 DDIM 반전에 대한 질적 예제를 볼 수 있습니다.

DDIM 반전에 대한 질적 결과. 각 행은 재구성 된 버전과 함께 매우 상세한 이미지를 보여 주며, 각 단계는 역전 및 비난 중에 점차 더 정확한 조건을 사용합니다. 컨디셔닝이 더 정확 해짐에 따라 재구성 품질이 향상됩니다. 가장 오른쪽 열은 최상의 결과를 보여줍니다. 원래 이미지 자체가 조건으로 사용되어 가장 높은 충실도를 달성합니다. CFG는 어떤 단계에서도 사용되지 않았습니다. 더 나은 해상도와 세부 사항은 소스 문서를 참조하십시오.

DDIM 반전에 대한 질적 결과. 각 행은 재구성 된 버전과 함께 매우 상세한 이미지를 보여 주며, 각 단계는 역전 및 비난 중에 점차 더 정확한 조건을 사용합니다. 컨디셔닝이 더 정확 해짐에 따라 재구성 품질이 향상됩니다. 가장 오른쪽 열은 최상의 결과를 보여줍니다. 원래 이미지 자체가 조건으로 사용되어 가장 높은 충실도를 달성합니다. CFG는 어떤 단계에서도 사용되지 않았습니다. 더 나은 해상도와 세부 사항은 소스 문서를 참조하십시오.

종이 상태 :

‘이 예는 이미지에서 반전 과정을 조절하면 매우 상세한 영역에서 재건을 크게 향상 시킨다는 것을 강조합니다.

‘특히 세 번째 예에서 [the image below]우리의 방법은 오른쪽 복서 뒷면의 문신을 성공적으로 재구성합니다. 또한 복서의 다리 자세가 더 정확하게 보존되고 다리의 문신이 보입니다. ‘

DDIM 반전에 대한 추가적인 질적 결과. 설명 조건은 이미지 컨디셔닝 텍스트, 특히 복잡한 이미지에서 DDIM 역전을 향상시킵니다.

DDIM 반전에 대한 추가적인 질적 결과. 설명 조건은 이미지 컨디셔닝 텍스트, 특히 복잡한 이미지에서 DDIM 역전을 향상시킵니다.

저자는 또한 기존 시스템의 드롭 인 모듈로 엄격한 반전을 테스트하여 수정 된 버전을 기준 성능에 대항했습니다.

테스트 된 세 가지 시스템은 위에서 언급 한 DDIM 반전 및 RF 반대였으며; 그리고 또한 Renewo여기에서 논의중인 논문과 일부 저자를 공유합니다. DDIM 결과는 100% 재구성을 얻는 데 어려움이 없기 때문에 연구자들은 편집 가능성에만 초점을 맞췄습니다.

(정 성적 결과 이미지는 여기서 재현하기 어려운 방식으로 형식화되므로 일부 선택이 아래에 포함되어 있음에도 불구하고 더 많은 커버리지 및 더 나은 해상도를 위해 독자를 소스 PDF를 참조하십시오).

SDXL 로의 엄격한 반전에 대한 왼쪽, 질적 재구성 결과. 오른쪽, 플럭스로 재구성. 게시 된 작업에서 이러한 결과의 레이아웃은 여기서 재현하기가 어렵 기 때문에 얻은 ​​차이에 대한 진정한 인상은 소스 PDF를 참조하십시오.

SDXL 로의 엄격한 반전에 대한 왼쪽, 질적 재구성 결과. 오른쪽, 플럭스로 재구성. 게시 된 작업에서 이러한 결과의 레이아웃은 여기서 재현하기가 어렵 기 때문에 얻은 ​​차이에 대한 진정한 인상은 소스 PDF를 참조하십시오.

여기서 저자는 다음과 같습니다.

‘설명 된 바와 같이, 기존 방법과 긴밀한 역전을 통합하면 재건이 지속적으로 향상됩니다. 을 위한 [example,] 우리의 방법은 가장 왼쪽 예에서 핸드 레일을 정확하게 재구성하고 가장 오른쪽 예에서 파란색 셔츠를 가진 사람 [in figure 5 of the paper]. ‘

저자는 또한 시스템을 정량적으로 테스트했습니다. 이전 작품에 따라 그들은 사용했습니다 유효성 검사 세트 ~의 MS-Coco결과 (아래 그림)는 모든 방법에 대한 모든 메트릭에서 재구성을 향상 시켰습니다.

반전이 있거나없는 시스템의 성능을위한 메트릭을 비교합니다.

반전이 있거나없는 시스템의 성능을위한 메트릭을 비교합니다.

다음으로 저자는 시스템의 능력을 테스트했습니다 편집하다 사진, 이전 접근법의 기준 버전에 맞서 싸우십시오 Prompt2prompt; 친숙한 DDPM 편집; LED-ITS ++; 및 RF 반전.

아래는 SDXL 및 Flux에 대한 논문의 질적 결과 중 하나입니다 (추가 예를 위해 독자에게 원본 용지의 다소 압축 레이아웃을 참조하십시오).

펼쳐지는 질적 결과 중에서 (혼란스럽게) 논문 전체에 널리 퍼져 있습니다. 우리는 개선 된 해상도와 의미있는 선명도를 위해 독자에게 소스 PDF를 참조합니다.

펼쳐지는 질적 결과 중에서 (혼란스럽게) 논문 전체에 널리 퍼져 있습니다. 우리는 개선 된 해상도와 의미있는 선명도를 위해 독자에게 소스 PDF를 참조합니다.

저자는 단단한 반전이 재구성과 편집성 사이의 더 나은 균형을 강화함으로써 기존 반전 기술을 지속적으로 능가한다고 주장합니다. DDIM 반전 및 리노이즈와 같은 표준 방법은 이미지를 잘 복구 할 수 있으며,이 논문은 편집이 적용될 때 미세한 세부 사항을 보존하기 위해 종종 고군분투한다고 말합니다.

대조적으로, 단단한 반전은 이미지 컨디셔닝을 활용하여 모델의 출력을 원본에 더 가깝게 고정시켜 원치 않는 왜곡을 방지합니다. 저자는 경쟁 접근이 재건을 생성 할 때에도 나타나다 정확한 편집의 도입은 종종 인공물이나 구조적 불일치로 이어지고, 엄격한 반전은 이러한 문제를 완화시킵니다.

마지막으로, 정량적 결과는 MagicBrush DDim 반전 및 LEDITS ++를 사용하여 벤치 마크 클립 시뮬레이션.

MagicBrush 벤치 마크에 대한 엄격한 반전의 정량적 비교.

MagicBrush 벤치 마크에 대한 엄격한 반전의 정량적 비교.

저자는 다음과 같이 결론을 내립니다.

‘두 그래프에서 이미지 보존과 대상 편집에 대한 준수 사이의 상충 관계는 분명합니다. [observed]. 단단한 반전은이 트레이드 오프에 대한 더 나은 제어를 제공하며 입력 이미지를 더 잘 보존하면서 편집과도 여전히 정렬됩니다. [prompt].

‘이미지와 텍스트 프롬프트 사이에서 0.3 이상의 클립 유사성은 이미지와 프롬프트 사이의 타당한 정렬을 나타냅니다.’

결론

LDM 기반 이미지 합성에서 가장 어려운 과제 중 하나에서 ‘획기적인 도전’을 나타내지는 않지만, 단단한 반전은 AI 기반 이미지 편집의 통합 된 방법으로 다수의 부담스러운 보조 접근법을 통합합니다.

이 방법에 따라 편집성과 충실도 사이의 긴장이 사라지지는 않지만, 제시된 결과에 따르면 현저히 감소된다. 이 작업 주소가 자체 용어를 다루면 (미래 시스템에서 LDM 기반 아키텍처를 넘어 보는 대신) 자체 용어를 다루면 궁극적으로 다루기 어려울 수 있다는 점을 고려할 때, 타이트한 반전은 최첨단의 환영의 점진적인 개선을 나타냅니다.

2025 년 2 월 28 일 금요일에 처음 출판되었습니다

게시물 AI 이미지 편집의 정확도 향상 먼저 나타났습니다 Unite.ai.

Share post:

Subscribe

Popular

More like this
Related

3월 14일 정부지원사업 신규 공고 리스트 (172건) _ (파일 재가공/재배포 가능)

3월 14일 172건<3/14 지원사업 신규 공고 목록> *전 영업일인 3/13에...

SEER Robotics는 SRC 컨트롤러, 로봇 건물을 가속화하는 포트폴리오를 제공합니다.

SEER의 광범위한 하드웨어 및 소프트웨어 포트폴리오의 일환으로 SRC 안전...

Dexterity는 컨테이너 언로드 로봇에 대한 자금 조달로 9 천 9 백만 달러를 픽업합니다.

인공 지능으로 구동되는 더 많은 로봇은 곧 트럭을 내릴...

Google DeepMind는 AI를 현실 세계에 가져 오는 두 가지 Gemini 기반 모델을 소개합니다.

Google의 Robotics Team은 기계 학습, 엔지니어링 및 물리 시뮬레이션에...