AI 뉴스허브

인간의 관심을 활용하면 AI 생성 이미지를 개선할 수 있습니다.

인간의 관심을 활용하면 AI 생성 이미지를 개선할 수 있습니다.

인간의 관심을 활용하면 AI 생성 이미지를 개선할 수 있습니다.

중국의 새로운 연구에서는 생성된 이미지의 품질을 향상시키는 방법을 제안했습니다. 잠재 확산 모델 Stable Diffusion과 같은 (LDM) 모델.

방법은 최적화에 중점을 둡니다. 돌출 지역 이미지 – 인간의 관심을 끌 가능성이 가장 높은 영역.

새로운 연구에서는 돌출 맵(왼쪽에서 네 번째 열)을 필터 또는 ‘마스크’로 사용하여 잡음 제거 프로세스에서 인간이 가장 주의를 기울일 가능성이 가장 높은 이미지 영역으로 주의 집중을 조정할 수 있음을 발견했습니다. 출처: https://arxiv.org/pdf/2410.10257

전통적인 방법으로 최적화 전체 이미지 새로운 접근 방식은 돌출 감지기를 활용하여 인간처럼 더 ‘중요한’ 영역을 식별하고 우선순위를 지정합니다.

양적 및 질적 테스트에서 연구원의 방법은 이미지 품질과 텍스트 프롬프트에 대한 충실도 측면에서 이전 확산 기반 모델을 능가할 수 있었습니다.

새로운 접근법은 또한 100명의 참가자를 대상으로 한 인간 인식 실험에서도 가장 좋은 점수를 받았습니다.

자연선택

현실 세계와 이미지에서 정보의 우선순위를 정하는 능력인 돌출성은 필수적인 부분 인간의 시각.

이에 대한 간단한 예는 고전 예술이 바다를 기반으로 하는 주제에서 얼굴, 초상화 또는 배의 돛대와 같은 그림의 중요한 영역에 할당하는 세부 사항에 대한 관심이 증가한 것입니다. 이러한 예에서 예술가의 관심은 중심 주제에 집중됩니다. 즉, 초상화 배경이나 먼 폭풍우의 파도와 같은 광범위한 세부 사항이 세부 사항보다 더 대략적이고 광범위하게 대표된다는 것을 의미합니다.

인간 연구를 통해 정보를 바탕으로 지난 10년 동안 모든 사진에서 인간의 관심 영역을 복제하거나 적어도 근사화할 수 있는 기계 학습 방법이 등장했습니다.

객체 분할(의미론적 분할)은 이미지의 측면을 개별화하고 해당 돌출 맵을 개발하는 데 도움이 될 수 있습니다. 출처: https://arxiv.org/pdf/1312.6034

연구 문헌 전체에서 지난 5년 동안 가장 인기 있는 돌출 맵 검출기는 2016년이었습니다. 기울기 가중치 클래스 활성화 매핑 (Grad-CAM) 이니셔티브는 나중에 개선된 버전으로 발전했습니다. 대학원 CAM++ 시스템, 기타 변형 및 개선 사항 중 하나입니다.

Grad-CAM은 그라데이션 활성화 개념이나 주석이 이미지에서 표현될 가능성이 있는 위치에 대한 시각적 지도를 생성하기 위한 의미론적 토큰(예: ‘개’ 또는 ‘고양이’).

원본 Grad-CAM 논문의 예. 두 번째 열에서는 안내된 역전파가 기여하는 모든 기능을 개별화합니다. 세 번째 열에는 ‘개’와 ‘고양이’라는 두 가지 개념에 대한 의미 지도가 그려져 있습니다. 네 번째 열은 이전 두 추론의 연결을 나타냅니다. 다섯째, 추론에 해당하는 오클루전(마스킹) 맵; 마지막으로 여섯 번째 열에서 Grad-CAM은 ResNet-18 레이어를 시각화합니다. 출처: https://arxiv.org/pdf/1610.02391

이러한 방법으로 얻은 결과에 대한 인간 조사에서는 이미지의 주요 관심 지점에 대한 수학적 개별화와 인간의 주의(이미지를 스캔할 때) 사이의 일치성이 밝혀졌습니다.

학교

그만큼 새 종이 Stable Diffusion 및 Flux와 같은 텍스트-이미지(및 잠재적으로 텍스트-비디오) 시스템에 어떤 중요성을 가져올 수 있는지 고려합니다.

사용자의 텍스트 프롬프트를 해석할 때 잠재 확산 모델은 훈련된 내용을 탐색합니다. 잠재 공간 사용된 단어나 문구와 일치하는 학습된 시각적 개념을 위해. 그런 다음 발견된 데이터 포인트를 분석합니다. 소음 제거 무작위 노이즈가 점진적으로 사용자의 텍스트 프롬프트에 대한 창의적인 해석으로 발전하는 프로세스입니다.

그러나 이 시점에서 모델은 다음을 제공합니다. 이미지의 모든 부분에 동일한 주의를 기울이십시오.. 2022년 확산모델 대중화 이후 OpenAI 출시로 Dall-E 이미지 생성기와 Stability.ai의 Stable Diffusion 프레임워크의 후속 오픈 소스화를 통해 사용자는 이미지의 ‘필수’ 섹션이 종종 제대로 제공되지 않는다는 사실을 발견했습니다.

인간의 전형적인 묘사에서 그 사람의 얼굴(이것은 최대 중요성 시청자에게)는 전체 이미지의 10-35% 이하를 차지할 가능성이 높지만, 이러한 관심 분산의 민주적 방법은 인간 인식의 본질과 예술 및 사진의 역사에 모두 반대됩니다.

사람의 청바지 단추가 눈과 동일한 컴퓨팅 무게를 받으면 리소스 할당이 최적이 아니라고 말할 수 있습니다.

이에 저자가 제안한 새로운 방법은 다음과 같다. 확산 잠재성의 핵심 유도 최적화 (SGOOL)은 돌출 매퍼를 사용하여 사진에서 무시된 영역에 대한 관심을 높이고 시청자의 관심 주변에 남아 있을 가능성이 있는 섹션에 더 적은 리소스를 할당합니다.

방법

SGOOL 파이프라인에는 이미지 생성, 돌출 매핑 및 최적화가 포함되며, 전체 이미지와 돌출 세분화 이미지가 공동 처리됩니다.

SGOOL의 개념적 스키마.

확산 모델의 잠재 임베딩은 다음과 같이 직접 최적화됩니다. 미세 조정특정 모델을 훈련할 필요가 없습니다. 스탠포드 대학의 잡음 제거 확산 암시적 모델 Stable Diffusion 사용자에게 친숙한 (DDIM) 샘플링 방법은 돌출 맵에서 제공되는 2차 정보를 통합하도록 채택되었습니다.

논문에는 다음과 같이 명시되어 있습니다.

‘우리는 먼저 인간의 시각적 주의 시스템을 모방하고 돌출 영역을 표시하기 위해 돌출 감지기를 사용했습니다. 추가 모델의 재교육을 피하기 위해 우리의 방법은 확산 잠재성을 직접 최적화합니다.

게다가 SGOOL은 가역확산과정을 활용해 상시 메모리 구현이라는 장점도 갖고 있다. 따라서 우리의 방법은 매개 변수 효율적이고 플러그 앤 플레이 미세 조정 방법이 됩니다. 여러 가지 지표와 인간 평가를 통해 광범위한 실험이 수행되었습니다.’

이 방법은 잡음 제거 프로세스를 여러 번 반복해야 하기 때문에 저자는 다음을 채택했습니다. 확산 잠재성의 직접 최적화 (DOODL) 프레임워크를 제공합니다. 가역확산 프로세스 – 여전히 이미지 전체에 주의를 기울이지만.

인간의 관심 분야를 정의하기 위해 연구자들은 던디 대학의 2022년 데이터를 사용했습니다. TransalNet 프레임워크.

2022 TransalNet 프로젝트의 돌출성 탐지 예. 출처: https://discovery.dundee.ac.uk/ws/portalfiles/portal/89737376/1_s2.0_S0925231222004714_main.pdf

그런 다음 TransalNet에서 처리된 돌출 영역을 잘라내어 실제 사람들이 가장 관심을 가질 만한 결정적인 돌출 섹션을 생성했습니다.

사용자 텍스트와 이미지의 차이를 정의하는 측면에서 고려해야 합니다. 손실 함수 프로세스가 작동하는지 확인할 수 있습니다. 이를 위해 OpenAI 버전 대조 언어 – 이미지 사전 훈련 (CLIP) – 지금까지 이미지 합성 연구 부문의 주류 –가 추정값을 고려하여 사용되었습니다. 의미론적 거리 텍스트 프롬프트와 글로벌(비돌출) 이미지 출력 사이.

저자는 다음과 같이 주장합니다.

‘[The] 최종 손실 [function] 두드러진 부분과 글로벌 이미지 사이의 관계를 동시에 고려하여 생성 과정에서 로컬 세부 사항과 글로벌 일관성의 균형을 맞추는 데 도움이 됩니다.

‘이 돌출성 인식 손실은 이미지 잠재성을 최적화하는 데 활용됩니다. 그래디언트는 노이즈가 있는 부분에서 계산됩니다. [latent] 생성된 원본 이미지의 두드러진 측면과 전체적인 측면 모두에 대한 입력 프롬프트의 조건화 효과를 향상시키는 데 활용됩니다.’

데이터 및 테스트

SGOOL을 테스트하기 위해 저자는 Stable Diffusion V1.4(테스트 결과에서 ‘SD’로 표시됨)의 ‘바닐라’ 분포와 CLIP 지침이 포함된 Stable Diffusion(결과에서 ‘기준선’으로 표시됨)을 사용했습니다.

시스템은 세 가지 공개 데이터세트를 기준으로 평가되었습니다. 공통 구문 프로세스 (CSP), 드로벤치및 DailyDallE*.

후자에는 OpenAI 블로그 게시물 중 하나에 등장한 아티스트의 정교한 프롬프트 99개가 포함되어 있으며, DrawBench는 11개 카테고리에 걸쳐 200개의 프롬프트를 제공합니다. CSP는 8개의 다양한 문법 사례를 바탕으로 52개의 프롬프트로 구성됩니다.

SD, 기준선 및 SGOOL의 경우 테스트에서 CLIP 모델이 사용되었습니다. ViT/B-32 이미지 및 텍스트 임베딩을 생성합니다. 동일한 프롬프트와 무작위 시드 사용되었습니다. 출력 크기는 256×256이고 TransalNet의 기본 가중치와 설정이 사용되었습니다.

CLIP 점수 측정항목 외에도 예상되는 인간 선호도 점수 (HPS)가 100명의 참가자를 대상으로 한 실제 연구에 추가로 사용되었습니다.

SGOOL을 이전 구성과 비교한 정량적 결과입니다.

위 표에 설명된 정량적 결과와 관련하여 논문에서는 다음과 같이 설명합니다.

‘[Our] 모델은 CLIP 점수와 HPS 지표 모두에서 모든 데이터세트에서 SD와 기준선보다 훨씬 뛰어난 성능을 발휘합니다. CLIP 점수와 HPS에 대한 우리 모델의 평균 결과는 2위보다 각각 3.05와 0.0029 더 높습니다.’

저자는 이전 접근 방식과 관련하여 HPS 및 CLIP 점수의 상자 그림을 추가로 추정했습니다.

테스트에서 얻은 HPS 및 CLIP 점수에 대한 상자 그림.

그들은 다음과 같이 논평합니다:

‘우리 모델이 다른 모델보다 성능이 뛰어나다는 것을 알 수 있으며, 이는 우리 모델이 프롬프트와 일치하는 이미지를 생성하는 능력이 더 뛰어나다는 것을 나타냅니다.

하지만 박스플롯에서는 이 평가 지표의 크기 때문에 박스플롯과의 비교를 시각화하기가 쉽지 않습니다. [0, 1]. 따라서 해당 막대 그래프를 그려보겠습니다.

‘SGOOL은 CLIP 점수와 HPS 지표 모두에서 모든 데이터세트에서 SD와 Baseline보다 뛰어난 성능을 보이는 것을 볼 수 있습니다. 정량적 결과는 우리 모델이 의미상 더 일관되고 인간이 선호하는 이미지를 생성할 수 있음을 보여줍니다.’

연구원들은 기본 모델이 이미지 출력의 품질을 향상시킬 수 있지만 이미지의 두드러진 영역을 고려하지 않는다는 점에 주목했습니다. 그들은 SGOOL이 전체 이미지 평가와 주요 이미지 평가 사이의 절충안을 도출함으로써 더 나은 이미지를 얻을 수 있다고 주장합니다.

정성적(자동화된) 비교에서는 SGOOL 및 DOODL의 경우 최적화 횟수가 50으로 설정되었습니다.

테스트에 대한 질적 결과. 더 나은 정의를 위해서는 원본 논문을 참조하세요.

여기서 저자는 다음과 같이 관찰합니다.

‘에서는 [first row]프롬프트의 주제는 ‘고양이 노래’와 ‘이발소 4중주’입니다. SD에서 생성한 이미지에는 고양이 네 마리가 있는데, 이미지 내용이 프롬프트와 제대로 일치하지 않습니다.

‘베이스라인이 생성한 이미지에서는 고양이가 무시되고, 얼굴 묘사와 이미지의 디테일이 부족합니다. DOODL은 프롬프트와 일치하는 이미지를 생성하려고 시도합니다.

‘그러나 DOODL은 전역 이미지를 직접적으로 최적화하기 때문에 이미지 속 인물은 고양이에 최적화되어 있습니다.’

대조적으로 그들은 SGOOL이 원래 프롬프트와 더 일치하는 이미지를 생성한다는 점에 주목했습니다.

인간 인식 테스트에서 100명의 지원자는 테스트 이미지의 품질과 의미적 일관성(즉, 원본 텍스트 프롬프트를 얼마나 밀접하게 준수하는지)을 평가했습니다. 참가자들은 선택을 할 수 있는 무제한의 시간을 가졌습니다.

인간의 인지 테스트 결과.

논문에서 지적했듯이 저자의 방법은 이전 접근 방식보다 특히 선호됩니다.

결론

본 백서에서 언급한 단점이 Stable Diffusion의 로컬 설치에서 명백해진 지 얼마 지나지 않아 다양한 맞춤형 방법(예: 이후 세부사항) 시스템이 인간의 관심이 더 큰 영역에 특별한 주의를 기울이도록 강제하기 위해 등장했습니다.

그러나 이러한 종류의 접근 방식을 사용하려면 확산 시스템이 처음에 이미지의 모든 부분에 동일한 주의를 기울이는 일반적인 프로세스를 거쳐야 하며 추가 단계로 더 많은 작업이 수행됩니다.

SGOOL의 증거는 기본적인 인간 심리학을 이미지 섹션의 우선순위 지정에 적용하면 후처리 단계 없이 초기 추론을 크게 향상시킬 수 있음을 시사합니다.

* 이 문서에서는 CommonSyntacticProcesses와 동일한 링크를 제공합니다.

2024년 10월 16일 수요일 첫 게시

게시물 인간의 관심을 활용하면 AI 생성 이미지를 개선할 수 있습니다. 처음 등장한 Unite.AI.

Exit mobile version