SHOW-O: 멀티모달 이해와 생성을 통합하는 단일 변환기

kunal kejriwal

1년 ago

대형 언어 모델(LLM)의 상당한 발전은 다중 모드 대형 언어 모델(MLLM)의 개발에 영감을 주었습니다. LLaVA, MiniGPT-4 및 InstructBLIP과 같은 초기 MLLM 노력은 주목할만한 다중 모드 이해 기능을 보여줍니다. LLM을 다중 모드 도메인에 통합하기 위해 이러한 연구에서는 CLIP과 같은 사전 훈련된 양식별 인코더의 기능을 LLM의 입력 공간으로 투영하여 변환기 백본 내에서 다중 모드 이해 및 추론을 가능하게 하는 방법을 조사했습니다. 비전 인코더, 기능 정렬 어댑터 및 데이터 세트와 같은 MLLM에 대한 다양한 설계 선택이 있지만 이러한 모델의 대부분에 대한 교육은 LLM의 텍스트 생성에 효과적인 것으로 입증된 자동 회귀 생성 패러다임을 준수합니다. 강력한 다중 모드 이해 기능에도 불구하고 이러한 모델은 주로 시각적 인식에 초점을 맞추고 텍스트 이상의 다중 모드 출력을 생성하는 기능이 부족합니다.

Transformer 모델은 자연어 처리 분야의 자동 회귀 모델링에서 큰 성공을 거두었습니다. 이러한 발전에 영감을 받아 이전 연구에서는 동일한 자동 회귀 모델링을 직접 적용하여 이미지 및 비디오 생성에 대한 이미지 픽셀의 종속성을 학습했습니다. 예를 들어 VideoPoet은 디코더 전용 변환기 아키텍처를 사용하여 다중 모드 입력에서 고품질 비디오를 합성합니다. 최근에 LlamaGen은 Llama와 같은 대규모 언어 모델 아키텍처가 이미지 토큰을 자동 회귀적으로 모델링하여 클래스 조건부 이미지 생성에서 적절한 성능을 달성할 수 있음을 보여주었습니다.

이 글에서는 다중 모드 이해와 생성을 통합하는 통합 변환기인 Show-O에 대해 설명합니다. 완전 자동 회귀 모델과 달리 Show-O는 자동 회귀 및 이산 확산 모델링을 통합하여 다양하고 혼합된 양식의 입력 및 출력을 적응적으로 처리합니다. 통합 모델은 시각적 질문 답변, 텍스트-이미지 생성, 텍스트 기반 인페인팅/외삽, 혼합 양식 생성 등 광범위한 비전 언어 작업을 유연하게 지원합니다. 다양한 벤치마크에서 Show-O는 동일하거나 더 많은 수의 매개변수를 사용하여 기존 개별 모델과 동등하거나 우수한 성능을 보여 차세대 기반 모델로서의 잠재력을 강조합니다.

이 프레임워크에서 모델은 연속 잠재 표현에 추가된 가우스 노이즈를 예측하는 작업을 담당합니다. 대조적으로 D3PM, Mask-predict, ARDM 및 MaskGIT와 같은 다른 모델은 가우스 확산의 대안으로 이산 손상 프로세스를 사용합니다. 특히, 이미지는 이미지 토크나이저를 사용하여 개별 토큰의 시퀀스로 표시되며 각 토큰은 범주형 레이블과 연결됩니다. 토큰별 분포는 확률론적 샘플링 프로세스를 통해 균일한 분포로 변환됩니다. 훈련 중에 이러한 토큰의 일부는 무작위로 마스킹되며, 모델은 마스킹된 토큰의 원래 값을 예측하도록 훈련됩니다. 이 작업에서 Show-O는 시각적 생성을 위해 이산 확산 모델링을 채택했습니다.

SHOW-O: 다중 모드 이해 및 생성 통합

지난 몇 년 동안 다중 모드 지능의 두 가지 핵심 요소인 이해와 생성에서 상당한 발전이 이루어졌습니다. 다중 모드 이해를 위해, 다중 모드 대형 언어 모델(MLLM)) LLaVA와 같은 VQA(시각적 질문 답변)와 같은 비전 언어 작업에서 탁월한 기능을 보여주었습니다. 시각적 생성의 경우 DDPM(Denoising Diffusion Probabilistic Model)은 기존 생성 패러다임에 혁명을 일으켜 텍스트-이미지/비디오 생성에서 전례 없는 성능을 달성했습니다.

개별 분야의 이러한 성과를 고려하면 이들을 연결할 수 있는 가능성을 모색하는 것은 당연합니다. 최근 연구에서는 다중 모드 이해와 생성을 모두 처리할 수 있는 통합 시스템을 형성하기 위해 이 두 가지 다른 영역의 전문가 모델을 조립하려고 시도했습니다. 그러나 기존 시도에는 이해와 생성을 위한 별도의 모델이 포함되는 경우가 많습니다. 예를 들어 NExT-GPT는 다중 모드 이해를 위해 기본 언어 모델을 사용하지만 이미지 생성을 위해 사전 훈련된 추가 확산 모델이 필요합니다. 이는 질문을 제기합니다. 하나의 단일 변환기가 다중 모드 이해와 생성을 모두 처리할 수 있습니까?

최근 카멜레온은 이것이 가능하다는 것을 입증했습니다. 특히 Chameleon은 다양한 양식을 융합하여 자동 회귀 모델링을 통해 텍스트와 이미지 토큰을 모두 생성할 수 있습니다. 텍스트 토큰을 자동 회귀적으로 모델링하는 것이 합리적이지만 동일한 방식으로 이미지 패치 또는 픽셀을 모델링하는 것이 최적인지 여부는 덜 명확합니다. 이미지 자동 회귀 예측의 주요 병목 현상은 특히 고해상도 이미지를 처리할 때 필요한 샘플링 단계가 많다는 것입니다. 연속 확산 모델은 자기회귀 모델에 비해 시각적 생성에서 우수한 성능을 보여주었습니다.

이를 통해 단일 변환기가 자기회귀 모델링과 확산 모델링을 모두 통합할 수 있는지 여부를 탐색할 수 있습니다. Show-O는 텍스트가 개별 토큰으로 표시되고 자동 회귀적으로 모델링되는 반면 연속 이미지 픽셀은 노이즈 제거 확산을 사용하여 모델링되는 새로운 패러다임을 구상합니다. 그러나 이 두 가지 서로 다른 기술을 단일 네트워크에 통합하는 것은 개별 텍스트 토큰과 연속적인 이미지 표현 간의 차이로 인해 쉽지 않습니다. 또한 확산 모델은 일반적으로 텍스트 인코더와 잡음 제거 네트워크라는 두 가지 모델을 사용합니다.

이 문제를 해결하기 위해 Show-O는 혼합 자기회귀 및 확산 모델링을 사용하여 다중 모드 이해와 생성 작업을 모두 처리할 수 있는 새로운 통합 모델을 도입합니다. Show-O는 사전 훈련된 LLM을 기반으로 구축되었으며 텍스트 기반 추론을 위해 자동 회귀 모델링 기능을 활용합니다. 다른 작품에서 영감을 받은 Show-O는 연속적인 표현 대신 모델 이미지 토큰에 이산 노이즈 제거 확산을 사용합니다. 또한 Show-O는 본질적으로 텍스트 조건 정보를 인코딩하므로 추가 텍스트 인코더가 필요하지 않습니다. Show-O는 텍스트 및 이미지 토크나이저를 활용하여 다양한 입력 데이터와 작업을 처리하고 비전 언어 작업에 대해 자동 회귀적으로 답변을 제공하고 이산 노이즈 제거 확산을 사용하여 이미지를 생성할 수 있습니다.

Show-O는 다양한 벤치마크에서 동일하거나 더 많은 수의 매개변수를 사용하여 개별 모델과 비교할 수 있고 어떤 경우에는 더 나은 성능을 보여줍니다. 자동회귀 이미지 생성과 달리 Show-O 프레임워크는 약 20배 적은 샘플링 단계를 필요로 하므로 본질적으로 더 빠릅니다. 또한 Show-O 프레임워크는 다음 이미지에서 볼 수 있듯이 미세 조정 없이 텍스트 안내 인페인팅 및 외삽과 같은 다운스트림 애플리케이션을 지원합니다.

Show-O는 또한 텍스트 설명이 포함된 인터리브 비디오 키프레임 생성과 같은 혼합 양식 생성의 잠재력을 갖고 있어 장편 비디오 생성에 대한 가능성을 보여줍니다. 또한 Show-O 프레임워크는 다중 모드 이해에 대한 개별적이고 연속적인 이미지 표현의 영향을 조사하여 미래의 통합 모델 설계에 대한 통찰력을 제공합니다.

다음 그림은 다양한 영역에 걸쳐 Show-O 프레임워크와 기존 방법 간의 모델 특성을 비교한 것입니다. Show-O는 다중 모드 이해와 생성을 위한 고급 기술을 통합하는 통합 모델로 돋보입니다.

요약하면, 이 논문의 주요 기여는 다음과 같습니다.

Show-O는 통일된 모델입니다. 단일 변환기를 사용하여 다중 모드 이해와 생성을 통합합니다.
Show-O는 자기회귀 및 이산 확산 모델링을 통합합니다. 하나의 변환기 내에서 텍스트와 이미지를 모두 효과적으로 처리합니다.
Show-O 프레임워크는 개별 기준 모델보다 성능이 뛰어나거나 일치합니다. 다중 모드 이해 및 생성 벤치마크 전반에 걸쳐 동일하거나 더 큰 매개변수를 사용합니다.
Show-O는 다운스트림 애플리케이션을 지원합니다. 미세 조정 없이 텍스트 기반 인페인팅 및 추정과 유사하며 혼합 양식 생성의 가능성을 보여줍니다.
Show-O는 다양한 유형의 표현이 미치는 영향을 탐구합니다.통합 모델의 다중 모드 이해를 향상시키기 위한 귀중한 통찰력을 제공합니다.

최근 몇 년 동안 이해와 생성이 모두 가능한 통합 다중 모드 언어 모델에 초점을 맞춘 연구가 점점 늘어나고 있습니다. 일부 노력에서는 자동 회귀 모델링을 위해 텍스트 토큰이 인터리브된 연속 표현을 사용하여 이미지를 생성합니다. SEED-X는 다중 모드 이해와 생성 작업을 모두 처리할 수 있는 통합되고 다양한 기반 시스템을 제안합니다. 이 접근 방식에서는 CLIP ViT 인코더의 연속 이미지 표현이 텍스트 토큰과 결합되어 LLM(대형 언어 모델)에 공급되어 다음 단어 예측 및 이미지 표현 회귀를 수행합니다. Chameleon은 이미지를 이해하고 생성할 수 있는 토큰 기반 혼합 모달 모델 제품군을 소개합니다. 이 접근 방식은 통합 변환기 기반 아키텍처를 활용하고 엔드투엔드 방식으로 처음부터 모델을 교육하여 모든 양식을 개별 토큰으로 나타냅니다. 이에 비해 Show-O는 모든 양식을 표현하기 위해 개별 토큰을 채택하지만 시각적 생성을 위해 자동 회귀 모델링 대신 개별 확산 프로세스를 활용합니다.

SHOW-O: 방법론 및 아키텍처

Show-O 프레임워크의 기본 목표는 공동 다중 모드 이해 및 생성을 위해 자동 회귀 및 확산 모델링을 통합하는 통합 모델을 개발하는 것입니다. 이러한 통합 모델을 개발하는 것은 다음과 같은 핵심 문제와 함께 중요한 과제를 제기합니다. i) 모델의 입력/출력 공간을 정의합니다. ii) 다양한 양식의 다양한 유형의 입력 데이터를 통합합니다. iii) 자기회귀 모델링과 확산 모델링을 모두 단일 변환기에 통합합니다. iv) 이러한 통합 모델을 효과적으로 훈련합니다.

Show-O는 다음 솔루션을 통해 이러한 과제를 해결합니다.

Show-O는 텍스트와 이미지 데이터를 개별 토큰으로 토큰화하여 입출력 공간을 구성합니다.
Show-O는 입력 데이터와 양식을 구조화하기 위한 기본 아키텍처와 통합 프롬프트 전략을 도입합니다.
Show-O는 단일 변환기 내에서 자동 회귀 및 확산 모델링을 모두 통합하는 방법을 보여줍니다.
Show-O는 통합 모델을 효과적으로 훈련하기 위한 3단계 훈련 파이프라인을 제시합니다.

토큰화

제안된 Show-O가 기반으로 구축되었다는 점을 고려하면 사전 훈련된 LLM분리된 공간에서 통합 학습을 수행하는 것이 당연합니다. 개별 텍스트 및 이미지 토큰을 포함하는 통합 어휘를 유지함으로써 Show-O는 동일한 학습 목표인 개별 토큰 예측을 수행합니다.

텍스트 토큰화

Show-O는 사전 훈련된 LLM을 기반으로 하며 텍스트 데이터 토큰화에는 동일한 토크나이저를 수정 없이 사용합니다.

이미지 토큰화

MAGVIT-v2에 이어 Show-O는 약 35M 이미지 데이터를 사용하여 조회 없는 양자화기를 교육합니다. 양자화기는 크기 8,192의 코드북을 유지하고 256×256 해상도의 이미지를 16×16 개별 토큰으로 인코딩합니다. MAGVIT-v2는 미세 조정이 용이하여 시간 압축 기능을 갖춘 비디오 토크나이저로 적합하므로 Show-O가 향후 탐색할 계획인 측면을 고려하여 선택되었습니다. 또 다른 접근 방식은 이해와 생성을 위해 각각 다른 토크나이저를 사용하는 것입니다. 기존 연구에서 영감을 받아 Show-O는 사전 훈련된 MAGVIT-v2 및 CLIP-ViT 인코더에서 연속 이미지 표현을 추출하여 다중 모달 이해 기능의 개선을 탐색합니다. 다음 섹션에서 기본 Show-O는 개별 이미지 토큰을 다음과 같이 사용합니다. 다중 모드 이해 및 생성을 위한 입력입니다. 단순화를 위해 방법론 섹션에서는 기본 Show-O에 대해서만 자세히 설명합니다.

건축학

Show-O는 다음의 아키텍처를 상속받습니다. 기존 LLM 각 Attention 레이어에 QK-Norm 작업을 추가하는 것을 제외하고는 아키텍처 수정이 없습니다. Show-O는 사전 훈련된 LLM의 가중치로 초기화되고 개별 이미지 토큰에 대해 8,192개의 새로운 학습 가능한 임베딩을 통합하여 임베딩 레이어의 크기를 확장합니다. 추가 텍스트 인코더가 필요한 최첨단 확산 모델과 달리 Show-O는 본질적으로 텍스트-이미지 생성을 위한 텍스트 조건부 정보를 인코딩합니다.

통합 프롬프트

다중 모드 이해 및 생성에 대한 통합 학습을 수행하기 위해 Show-O는 통합 프롬프트 전략을 활용하여 다양한 종류의 입력 데이터를 형식화합니다. 이미지-텍스트 쌍(x, y)이 주어지면 먼저 토큰화됩니다. 이미지 및 텍스트 토크나이저에 의해 각각 M개의 이미지 토큰과 N개의 텍스트 토큰으로 변환됩니다. 그런 다음 토큰은 다음 그림과 같이 작업 유형에 따라 입력 시퀀스로 구성됩니다.

이러한 프롬프트 디자인을 채택함으로써 Show-O는 다중 모드 이해, 텍스트-이미지 생성 및 혼합 모드 생성을 위한 다양한 입력 데이터를 순차적 데이터로 효과적으로 인코딩할 수 있습니다. 이 설정을 사용하면 통합 학습이 이러한 다양한 작업의 시퀀스 전반에 걸쳐 원활하게 작동할 수 있습니다. 일단 훈련되면 Show-O는 시각적 질문 응답 및 텍스트-이미지 생성을 포함하여 광범위한 비전 언어 작업을 처리하도록 유도될 수 있습니다.

옴니 어텐션 메커니즘

시퀀스를 자동 회귀적으로만 모델링하는 기존 작업과 달리 Show-O는 omni-attention 메커니즘을 도입하여 다양한 유형의 신호를 고유한 방식으로 모델링할 수 있습니다. 이 포괄적인 주의 메커니즘은 입력 시퀀스의 형식에 따라 인과 주의와 전체 주의 사이를 적응적으로 전환합니다. 다음 그림은 다양한 입력 시퀀스에 대한 omni-attention의 예를 보여줍니다.

특히 Show-O는 인과 주의를 통해 시퀀스 내에서 텍스트 토큰을 처리하는 반면, 이미지 토큰은 전체 주의를 통해 처리되므로 각 토큰이 다른 모든 토큰과 포괄적으로 상호 작용할 수 있습니다. 다중 모드 이해에서는 텍스트 토큰이 이전의 모든 이미지 토큰에 참여할 수 있는 반면, 텍스트-이미지 생성에서는 이미지 토큰이 이전의 모든 텍스트 토큰과 상호 작용할 수 있습니다. Omni-attention은 사전 훈련된 LLM의 텍스트 추론 지식을 유지하고 샘플링 단계를 줄여 이미지 생성 효율성을 향상시킵니다. 또한 미세 조정 없이 인페인팅, 외삽 등 다양한 다운스트림 애플리케이션을 지원합니다. 텍스트 토큰만 제공되면 메커니즘은 기본적으로 인과적 주의를 기울입니다.

SHOW-O: 실험 및 결과

다음 표는 이미지 캡션 및 시각적 질문 답변 작업과 같은 공개 벤치마크에서 Show-O의 다중 모드 이해 기능을 보여줍니다.

Show-O의 현재 버전은 Phi-1.5를 기반으로 구축되었으므로 Show-O의 이해 전용 대응 버전인 LLaVA-v1.5-Phi-1.5가 직접적인 기준 역할을 합니다. Show-O는 모든 평가 지표에서 다중 모드 이해에만 전념하는 기준선 LLaVA-v1.5-Phi-1.5에 필적하는 성능을 보여줍니다. 이는 단일 변환기 내에서 다중 모드 이해와 생성을 통합하는 Show-O 프레임워크의 큰 잠재력을 보여줍니다. InstructBLIP, Qwen-VL-Chat 및 mPLUG-Owl2와 같은 이해 전용 모델과 비교할 때 Show-O는 훨씬 작은 모델 크기에도 불구하고 POPE, MME, Flickr30k 및 VQAv2 벤치마크에서 경쟁력 있는 성능을 달성하고 GQA 벤치마크에서는 더 좋습니다. NExT-GPT-13B 및 Chameleon-34B와 같이 훨씬 더 많은 매개변수가 있는 통합 모델과 비교할 때 Show-O는 Flickr30k 벤치마크에서도 강력한 성능을 달성하고 VQAv2 벤치마크에서도 훨씬 더 나은 성능을 발휘합니다.

이러한 유망한 결과를 고려할 때 Show-O는 이해와 세대를 통합하기 위한 잠재적인 차세대 기반 모델로 구상됩니다. 이러한 결과는 또한 최첨단 성능을 달성하기 위해 Show-O를 확장할 수 있는 가능성을 보여줍니다.

질적 비교

다음 그림과 같이 LWM 및 SEED-X와 같은 통합 모델과 함께 SDv1.5, SDXL 및 자동 회귀 기반 모델 LlamaGen과 같은 확산 기반 모델과의 정성적 비교를 제시합니다.

Show-O는 짧고 긴 텍스트 프롬프트에 설명된 일관된 콘텐츠로 사실적인 이미지를 생성하는 기능을 보여줍니다. SDv1.5 및 LlamaGen에 비해 Show-O는 더 나은 시각적 품질과 더 강력한 이미지-텍스트 정렬을 보여줍니다. 예를 들어, 두 번째 열에서 SDv1.5와 LlamaGen은 모두 텍스트 프롬프트를 완전히 이해하지 못하고 생성된 이미지에서 “일몰” 및 “파란 돔”과 같은 속성을 놓쳤습니다. SDXL과 비교하여 Show-O는 “랠리 자동차 경주” 및 “생동감 넘치는 일몰과의 놀라운 대비”와 같은 예에서 볼 수 있듯이 비슷한 시각적 품질과 정렬을 제공합니다.

텍스트 기반 인페인팅 및 추정

Show-O는 미세 조정 없이도 텍스트 기반 인페인팅 및 추정을 자연스럽게 지원합니다. 다음 그림에서는 몇 가지 예를 보여줍니다.

그림 상단에서 입력 이미지와 인페인팅 마스크가 주어지면 Show-O는 사용자가 제공한 텍스트 프롬프트에 따라 빨간색 트롤리 자동차를 매끄러운 곡선과 색조 창을 갖춘 파란색 스포츠카로 변환할 수 있습니다. Show-O는 주어진 텍스트 프롬프트를 기반으로 원본 이미지를 수평 또는 수직으로 추정할 수도 있습니다. 예를 들어 두 번째 행에서 Show-O는 ‘빨간 야생화’와 같은 새로운 개체를 추가하여 이미지를 추정합니다. 페인팅된 영역과 외삽된 영역 모두의 픽셀은 원본 이미지와 일관되게 유지됩니다. 이러한 예는 다운스트림 애플리케이션에 대한 자동 회귀 모델에 비해 Show-O의 고유한 이점을 명확하게 보여줍니다.

최종 생각

이 기사에서는 다중 모드 이해와 생성을 통합하는 통합 변환기인 Show-O에 대해 설명했습니다. 완전 자동 회귀 모델과 달리 Show-O는 자동 회귀 및 이산 확산 모델링을 통합하여 다양하고 혼합된 양식의 입력 및 출력을 적응적으로 처리합니다. 통합 모델은 시각적 질문 답변, 텍스트-이미지 생성, 텍스트 기반 인페인팅/외삽, 혼합 양식 생성 등 광범위한 비전 언어 작업을 유연하게 지원합니다. 다양한 벤치마크에서 Show-O는 동일하거나 더 많은 수의 매개변수를 사용하여 기존 개별 모델과 동등하거나 우수한 성능을 보여 차세대 기반 모델로서의 잠재력을 강조합니다. 이 프레임워크에서 모델은 연속 잠재 표현에 추가된 가우스 노이즈를 예측하는 작업을 담당합니다. 대조적으로 D3PM, Mask-predict, ARDM 및 MaskGIT와 같은 다른 모델은 가우스 확산의 대안으로 이산 손상 프로세스를 사용합니다. Show-O는 자동회귀 및 이산 확산 모델링을 최초로 통합하여 다양한 양식을 뚜렷한 방식으로 처리할 수 있도록 해줍니다. 광범위한 실험 결과는 Show-O가 광범위한 비전 언어 작업에 걸쳐 개별 전문가 모델과 비슷하거나 훨씬 더 우수하다는 것을 보여줍니다. 이는 차세대 기반 모델로서의 잠재력을 강조합니다.

게시물 SHOW-O: 멀티모달 이해와 생성을 통합하는 단일 변환기 처음 등장한 Unite.AI.