AI 뉴스허브

Disney Research는 향상된 AI 기반 이미지 압축을 제공하지만 세부 사항을 환각시킬 수 있습니다.

Disney Research는 향상된 AI 기반 이미지 압축을 제공하지만 세부 사항을 환각시킬 수 있습니다.

Disney Research는 향상된 AI 기반 이미지 압축을 제공하지만 세부 사항을 환각시킬 수 있습니다.

Disney의 연구 부서는 오픈 소스 Stable Diffusion V1.2 모델을 활용하여 경쟁 방법보다 낮은 비트 전송률로 더욱 사실적인 이미지를 생성하는 새로운 이미지 압축 방법을 제공하고 있습니다.

Disney 압축 방법을 이전 접근 방식과 비교합니다. 저자는 수십만 달러의 교육이 필요하지 않고 가장 가까운 동등한 경쟁 방법보다 빠르게 작동하는 모델을 제공하면서 세부 사항 복구가 향상되었다고 주장합니다. 출처: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

새로운 접근 방식(예: 기존 코덱에 비해 복잡성이 증가함에도 불구하고 ‘코덱’으로 정의됨) JPEG 그리고 AV1)는 어떤 환경에서도 작동할 수 있습니다. 잠재 확산 모델 (LDM). 정량적 테스트에서는 정확도와 세부사항 측면에서 이전 방법보다 성능이 뛰어나며 교육 및 계산 비용이 훨씬 적습니다.

새 작품의 핵심 통찰은 다음과 같다. 양자화 오류 (에이 중앙 프로세스 모든 이미지 압축에서)는 다음과 유사합니다. 소음 (에이 중앙 프로세스 확산 모델에서).

따라서 ‘전통적으로’ 양자화된 이미지는 원본 이미지의 노이즈 버전으로 처리될 수 있으며, 목표 비트 전송률에서 이미지를 재구성하기 위해 무작위 노이즈 대신 LDM의 노이즈 제거 프로세스에 사용될 수 있습니다.

경쟁 접근 방식과 대조되는 새로운 Disney 방식(녹색으로 강조 표시)에 대한 추가 비교입니다.

저자들은 다음과 같이 주장합니다.

‘[We] 전송된 이미지에서 손실된 정보를 복구하기 위해 확산을 사용하여 잡음 제거 작업으로 양자화 오류 제거를 공식화합니다. 우리의 접근 방식을 사용하면 전체 확산 생성 프로세스의 10% 미만을 수행할 수 있으며 확산 모델에 대한 아키텍처 변경이 필요하지 않으므로 백본을 추가로 미세 조정하지 않고도 기초 모델을 강력한 사전 모델로 사용할 수 있습니다.

‘우리가 제안한 코덱은 정량적 사실성 측정에서 이전 방법보다 성능이 뛰어나며 다른 방법이 두 배의 비트 전송률을 사용하는 경우에도 최종 사용자가 재구성을 질적으로 선호한다는 것을 확인했습니다.’

그러나 확산 모델의 압축 기능을 활용하려는 다른 프로젝트와 마찬가지로 출력은 다음과 같습니다. 환각을 느끼다 세부. 대조적으로, JPEG와 같은 손실이 많은 방법은 명확하게 왜곡되거나 지나치게 부드러운 세부 영역을 생성하므로 일반 시청자가 이를 압축 제한으로 인식할 수 있습니다.

대신 Disney 코덱은 원본 이미지의 거친 특성으로 인해 원본 이미지에 없었던 세부 정보를 변경할 수 있습니다. 변형 자동 인코더 (VAE)는 하이퍼스케일 데이터에 대해 훈련된 일반적인 모델에 사용됩니다.

‘다른 생성적 접근법과 유사하게, 우리의 방법은 수신기 측에서 유사한 정보를 합성하는 동안 특정 이미지 특징을 삭제할 수 있습니다. 그러나 특정 경우에는 직선이 구부러지거나 작은 개체의 경계가 뒤틀리는 등 부정확한 재구성이 발생할 수 있습니다.

‘이것은 우리가 구축한 기초 모델의 잘 알려진 문제이며, 이는 VAE의 상대적으로 낮은 기능 차원에 기인할 수 있습니다.’

이는 예술적인 묘사와 일반 사진의 사실성에 어느 정도 영향을 미치지만 법원 사건의 증거, 안면 인식 데이터, 광학 문자 인식(OCR) 스캔과 같은 작은 세부 사항이 필수 정보를 구성하는 경우 더 중요한 영향을 미칠 수 있습니다. ) 및 이 기능을 갖춘 코덱이 대중화되면 기타 다양한 사용 사례가 가능해집니다.

AI 강화 이미지 압축 진행의 초기 단계에서 이러한 모든 가능한 시나리오는 먼 미래의 일입니다. 그러나 이미지 저장은 다른 문제 외에도 데이터 저장, 스트리밍, 전력 소비와 관련된 문제를 다루는 대규모 글로벌 과제입니다. 따라서 AI 기반 압축은 정확성과 물류 사이에서 매력적인 절충안을 제공할 수 있습니다. 역사는 최고의 코덱을 보여줍니다 항상 이기지 마라 독점 형식에 의한 라이센스 및 시장 포착과 같은 문제가 채택 요인인 경우 가장 광범위한 사용자 기반.

디즈니는 오랫동안 압축 방법으로 머신러닝을 실험해 왔습니다. 2020년에 새로운 논문의 연구자 중 한 명이 다음과 같은 일에 참여했습니다. VAE 기반 프로젝트 향상된 비디오 압축을 위해.

새로운 디즈니 신문은 10월 초에 업데이트되었습니다. 오늘 회사에서 발표한 함께 제공되는 YouTube 동영상. 그만큼 프로젝트 제목이 붙어있다 기초 확산 모델을 사용한 손실 이미지 압축ETH Zürich(Disney의 AI 기반 프로젝트 관련) 및 Disney Research의 연구원 4명이 참여했습니다. 연구원들은 또한 보충 논문.

방법

새로운 방법은 VAE를 사용하여 이미지를 압축된 형식으로 인코딩합니다. 잠재표상. 이 단계에서 입력 이미지는 파생된 이미지로 구성됩니다. 특징 – 낮은 수준의 벡터 기반 표현. 그런 다음 잠재 임베딩은 다시 비트스트림으로 양자화되고 다시 픽셀 공간으로 양자화됩니다.

그런 다음 이 양자화된 이미지는 일반적으로 다양한 수의 노이즈 제거 단계를 사용하여 확산 기반 이미지를 생성하는 노이즈에 대한 템플릿으로 사용됩니다(여기서 노이즈 제거 단계 증가와 정확도 향상, 지연 시간 감소 및 정확성 사이에는 절충안이 있는 경우가 많습니다). 더 높은 효율성).

새로운 Disney 압축 방법에 대한 스키마입니다.

양자화 매개변수와 총 잡음 제거 단계 수는 인코딩의 이러한 측면과 관련된 관련 변수를 예측하는 신경망 훈련을 통해 새로운 시스템에서 제어할 수 있습니다. 이 과정을 적응형 양자화디즈니 시스템은 다음을 사용합니다. 엔트로폼 절차를 강화하는 엔트로피 모델로서의 프레임워크입니다.

저자는 다음과 같이 말합니다.

‘직관적으로 우리의 방법은 확산 과정에서 합성될 수 있는 정보(양자화 변환을 통해)를 폐기하는 방법을 학습합니다. 양자화 중에 발생하는 오류는 추가하는 것과 유사하기 때문입니다. [noise] 확산 모델은 기능적으로 노이즈 제거 모델이므로 코딩 중에 발생하는 양자화 노이즈를 제거하는 데 사용할 수 있습니다.’

안정적인 확산 V2.1 코드 전체와 베이스가 있기 때문에 선택된 시스템의 확산 백본입니다. 무게 공개적으로 이용 가능합니다. 그러나 저자는 자신의 스키마가 더 많은 모델에 적용 가능하다는 점을 강조합니다.

프로세스의 경제성에 중추적인 것은 시간 단계 예측최적의 노이즈 제거 단계 수(효율성과 성능 간의 균형 조정)를 평가합니다.

최적의 노이즈 제거 단계 수가 빨간색 테두리로 표시된 시간 단계 예측입니다. 정확한 해상도는 원본 PDF를 참조하세요.

최적의 노이즈 제거 단계 수를 예측할 때 잠재 임베딩의 노이즈 양을 고려해야 합니다.

데이터 및 테스트

모델은 다음과 같이 훈련되었습니다. 비메오-90k 데이터세트. 이미지는 각각 256x256px로 무작위로 잘렸습니다. 시대 (즉, 모델 훈련 아키텍처에 의해 정제된 데이터세트를 각각 완전히 수집합니다.)

모델은 300,000단계에 대해 최적화되었습니다. 학습률 1e-4의. 이는 컴퓨터 비전 프로젝트에서 가장 일반적이며 데이터 세트의 개념과 특성에 대한 광범위한 일반화와 미세한 세부 사항을 재현하는 능력 간의 절충으로서 일반적으로 실행 가능한 가장 낮고 가장 세밀한 값입니다.

저자는 경제적이면서도 효과적인 시스템*에 대한 몇 가지 물류 고려 사항에 대해 논평합니다.

‘훈련 중에 확산 모델이 실행되는 동안 여러 번 통과하여 기울기를 역전파하는 것은 엄청나게 비용이 많이 듭니다. 아니요 견본 추출. 따라서 우리는 DDIM 샘플링 반복을 한 번만 수행하고 직접 사용합니다. [this] 완전히 노이즈가 제거된 것처럼 [data].’

시스템 테스트에 사용된 데이터 세트는 다음과 같습니다. 코닥; CLIC2022; 그리고 코코 30,000. 데이터세트는 2023년 Google 보고서에 설명된 방법론에 따라 사전 처리되었습니다. 헌금 조건부 생성기를 사용한 다중 현실감 이미지 압축.

사용된 측정항목은 다음과 같습니다. 피크 신호 ​​대 잡음비 (PSNR); 학습된 지각 유사성 측정항목 (LPIPS); 다중 규모 구조적 유사성 지수 (MS-SSIM); 그리고 프레셰 시작 거리 (버팀대).

테스트된 이전 경쟁 프레임워크는 GAN(Generative Adversarial Networks)을 사용하는 이전 시스템과 확산 모델을 기반으로 하는 최신 제품으로 나누어졌습니다. 테스트된 GAN 시스템은 다음과 같습니다. 충실도가 높은 생성 이미지 압축 (하이파이C); 그리고 ILLM (HiFiC에서 일부 개선 사항을 제공합니다).

확산 기반 시스템은 다음과 같습니다. 조건부 확산 모델을 사용한 손실이 있는 이미지 압축 (질병통제예방센터) 및 점수 기반 생성 모델을 사용한 충실도 높은 이미지 압축 (HFD).

다양한 데이터 세트에 대한 이전 프레임워크에 대한 정량적 결과입니다.

연구원들은 정량적 결과(위에 시각화됨)에 대해 다음과 같이 말합니다.

‘우리의 방법은 FID 비트 전송률 곡선의 모든 기준을 능가하는 재구성된 이미지의 사실성에 새로운 최첨단을 설정합니다. 일부 왜곡 지표(즉, LPIPS 및 MS-SSIM)에서는 최고 성능의 생성 코덱과의 경쟁력을 유지하면서 모든 확산 기반 코덱보다 성능이 뛰어납니다.

‘예상대로 우리의 방법과 기타 생성 방법은 세부 사항의 정확한 복제 대신 지각적으로 만족스러운 재구성을 선호하기 때문에 PSNR로 측정할 때 어려움을 겪습니다.’

사용자 연구를 위해 선호하는 이미지가 이후 라운드로 진행되는 토너먼트 환경에서 2AFC(두 가지 대안 강제 선택) 방법이 사용되었습니다. 연구에서는 얼마나 많이 원래 체스 토너먼트용으로 개발된 등급 시스템입니다.

따라서 참가자는 다양한 생성 방법을 통해 제시된 두 개의 512x512px 이미지 중 가장 좋은 것을 보고 선택합니다. 추가적인 실험이 진행되었는데, 모두 동일한 사용자의 이미지 비교는 다음을 통해 평가되었습니다. 몬테카를로 시뮬레이션 10,0000회 이상의 반복을 통해 중간 점수가 결과에 표시됩니다.

각 비교(왼쪽) 및 각 참가자에 대한 Elo 토너먼트를 특징으로 하는 사용자 연구를 위한 예상 Elo 등급(값이 높을수록 더 좋음).

여기서 저자는 다음과 같이 논평합니다.

‘Elo 점수에서 볼 수 있듯이 우리의 방법은 평균적으로 m 비트의 두 배를 사용하는 CDC와 비교해도 다른 모든 방법보다 훨씬 뛰어납니다. 방법. 이는 Elo 토너먼트 전략에 관계없이 적용됩니다.’

원본 논문에서도 그렇고, 보충 PDF저자는 추가 시각적 비교를 제공하며 그 중 하나가 이 기사의 앞부분에 표시됩니다. 그러나 샘플 간 차이의 세분성으로 인해 독자에게 원본 PDF를 참조하여 이러한 결과를 공정하게 판단할 수 있습니다.

이 논문은 제안된 방법이 경쟁 CDC보다 두 배 빠른 속도(각각 3.49초 대 6.87초)로 작동한다는 점을 언급하며 결론을 내립니다. 또한 ILLM은 0.27초 내에 이미지를 처리할 수 있지만 이 시스템에는 부담스러운 훈련이 필요하다는 점을 관찰했습니다.

결론

ETH/Disney 연구자들은 논문의 결론에 따라 자신들의 시스템이 잘못된 세부 정보를 생성할 가능성이 있음을 분명히 밝혔습니다. 그러나 자료에 제공된 샘플 중 어느 것도 이 문제에 대해 다루지 않습니다.

공평하게 말하면 이 문제는 새로운 Disney 접근 방식에만 국한되지 않고 이미지를 압축하기 위해 확산 모델(창의적이고 해석적인 아키텍처)을 사용하는 데 따른 불가피한 부수적 효과입니다.

흥미롭게도 불과 5일 전에 ETH Zurich의 다른 연구원 두 명이 다음과 같은 결과를 발표했습니다. 종이 제목이 붙은 이미지 압축을 위한 조건부 환각AI 기반 압축 시스템에서 ‘최적의 환각 수준’ 가능성을 조사합니다.

그곳의 저자들은 영역이 충분히 일반적인(그리고 틀림없이 ‘무해한’) 환각의 바람직성에 대한 사례를 제시합니다.

풀, 주근깨, 돌담 등 질감과 유사한 콘텐츠의 경우 정확한 픽셀 값을 재구성하는 것보다 주어진 질감과 사실적으로 일치하는 픽셀을 생성하는 것이 더 중요합니다. 일반적으로 텍스처 분포에서 샘플을 생성하는 것만으로도 충분합니다.’

따라서 이 두 번째 논문에서는 압축되지 않은 원본 이미지의 핵심 특성과 윤곽을 최대한 정확하게 재현하기보다는 압축이 최적으로 ‘창의적’이고 대표성이 있다는 주장을 제시합니다.

사진 및 창작 커뮤니티가 ‘압축’에 대한 상당히 급진적인 재정의에 대해 어떻게 생각하는지 궁금합니다.

*저자의 인라인 인용을 하이퍼링크로 전환했습니다.

2024년 10월 30일 수요일 첫 게시

게시물 Disney Research는 향상된 AI 기반 이미지 압축을 제공하지만 세부 사항을 환각시킬 수 있습니다. 처음 등장한 Unite.AI.

Exit mobile version