그만큼 최근 공개 출시 Hunyuan Video 생성 AI 모델의 개발은 언젠가 전체 영화를 제작할 수 있는 대규모 다중 모드 비전 언어 모델의 잠재력에 대한 지속적인 논의를 강화했습니다.
그러나 우리는 관찰했다이것은 여러 가지 이유로 현재로서는 매우 먼 전망입니다. 하나는 일련의 샷은 물론이고 짧은 단일 샷에서도 일관성을 유지하기 위해 애쓰는 대부분의 AI 비디오 생성기의 매우 짧은 주의 창입니다.
또 다른 하나는 비디오 콘텐츠(예: 단계를 추적해도 무작위로 변경되어서는 안 되는 탐색 가능한 환경)에 대한 일관된 참조가 다음과 같은 사용자 정의 기술을 통해 확산 모델에서만 달성될 수 있다는 것입니다. 낮은 순위 적응 (LoRA)는 기본 모델의 기본 기능을 제한합니다.
따라서 내러티브 연속성에 대한 새로운 접근 방식이 개발되지 않는 한 생성적 비디오의 진화는 정체될 것으로 보입니다.
연속성을 위한 레시피
이를 염두에 두고 미국과 중국 간의 새로운 협력이 다음과 같은 사용을 제안했습니다. 요리 교육 동영상 미래의 내러티브 연속성 시스템을 위한 가능한 템플릿입니다.
재생하려면 클릭하세요. VideoAuteur 프로젝트는 요리 과정의 일부 분석을 체계화하여 세밀하게 설명된 새로운 데이터 세트와 요리 비디오 생성을 위한 조정 방법을 생성합니다. 더 나은 해결 방법은 소스 사이트를 참조하세요. 출처: https://videoauteur.github.io/
제목 비디오 작성자이 작업은 키프레임과 캡션을 결합한 일관된 상태를 사용하여 교육용 요리 비디오를 생성하는 2단계 파이프라인을 제안하여 구독자가 적은 공간에서 최첨단 결과를 달성합니다.
VideoAuteur의 프로젝트 페이지에는 (존재하지 않는) Marvel/DC 크로스오버에 대한 제안된 예고편과 같이 동일한 기술을 사용하는 훨씬 더 많은 관심을 끄는 비디오도 포함되어 있습니다.
재생하려면 클릭하세요. VideoAuteur의 가짜 예고편에서 다른 세계의 두 슈퍼히어로가 대면합니다. 더 나은 해결 방법은 소스 사이트를 참조하세요.
이 페이지에는 존재하지 않는 Netflix 동물 시리즈와 Tesla 자동차 광고에 대한 유사한 스타일의 프로모션 비디오도 포함되어 있습니다.
VideoAuteur를 개발하면서 저자는 다양한 손실 함수와 기타 새로운 접근 방식을 실험했습니다. 레시피 생성 워크플로우를 개발하기 위해 그들은 또한 선별했습니다. 쿡젠는 요리 영역에 초점을 맞춘 최대 규모의 데이터 세트로, 평균 길이가 9.5초인 200,000개의 비디오 클립을 포함합니다.
동영상당 평균 768.3단어로 CookGen은 동종 데이터세트 중 가장 광범위하게 주석이 달린 데이터세트입니다. 설명이 최대한 자세하고 관련성이 높으며 정확하도록 보장하기 위해 다양한 시각/언어 모델이 사용되었습니다.
요리 동영상을 선택한 이유는 요리 지침을 자세히 설명하는 체계적이고 명확한 설명이 있어 주석 달기와 평가가 더 쉬워지기 때문입니다. 포르노 비디오(조만간 이 특정 공간에 들어갈 가능성이 있음)를 제외하고 다른 장르를 시각적으로나 서사적으로 ‘공식적’이라고 생각하기는 어렵습니다.
저자는 다음과 같이 말합니다.
‘긴 내러티브 디렉터와 시각적으로 조정된 비디오 생성을 포함하는 우리가 제안한 2단계 자동 회귀 파이프라인은 생성된 긴 내러티브 비디오의 의미론적 일관성과 시각적 충실도의 유망한 개선을 보여줍니다.
데이터 세트에 대한 실험을 통해 비디오 시퀀스 전반에 걸쳐 공간적, 시간적 일관성이 향상되는 것을 관찰했습니다.
‘우리는 우리의 작업이 긴 서술형 비디오 생성에 대한 추가 연구를 촉진할 수 있기를 바랍니다.’
그만큼 새로운 일 제목이 붙어있다 VideoAuteur: 긴 내러티브 비디오 생성을 향하여Johns Hopkins University, ByteDance 및 ByteDance Seed의 8명의 저자가 작성했습니다.
데이터 세트 큐레이션
AI 요리 비디오 제작을 위한 2단계 생성 시스템을 구동하는 CookGen을 개발하기 위해 저자는 유쿡 그리고 HowTo100M 컬렉션. 저자는 CookGen의 규모를 생성적 비디오의 내러티브 개발에 초점을 맞춘 이전 데이터 세트와 비교합니다. 플린스톤 데이터 세트, 뽀로로 만화 데이터 세트, 스토리젠텐센트의 스토리스트림그리고 표시됨.
CookGen은 실제 이야기, 특히 요리와 같은 절차적 활동에 중점을 두어 이미지 기반 만화 데이터 세트에 비해 더 명확하고 주석을 달기 쉬운 스토리를 제공합니다. 150배 더 많은 프레임과 5배 더 조밀한 텍스트 설명을 통해 기존 최대 데이터 세트인 StoryStream을 능가합니다.
연구진 캡션 모델을 미세 조정했습니다. 방법론을 사용하여 LLaVA-넥스트 베이스로. HowTo100M을 위해 얻은 자동 음성 인식(ASR) 의사 레이블은 각 비디오의 ‘작업’으로 사용되었으며 이후 다음과 같이 추가로 개선되었습니다. 대규모 언어 모델 (LLM).
예를 들어 ChatGPT-4o는 캡션 데이터 세트를 생성하는 데 사용되었으며 주체-객체 상호 작용(예: 식기 및 음식을 다루는 손), 객체 속성 및 시간적 역학에 초점을 맞춰 달라는 요청을 받았습니다.
ASR 스크립트는 부정확한 내용을 포함하고 일반적으로 ‘시끄러운’ 내용을 포함할 가능성이 높으므로, 교차점 오버 유니온 (IoU)는 캡션이 해당 비디오의 섹션과 얼마나 밀접하게 일치하는지 측정하는 측정 기준으로 사용되었습니다. 저자는 이것이 내러티브 일관성을 만드는 데 중요하다고 지적합니다.
선별된 클립은 다음을 사용하여 평가되었습니다. 프레셰 비디오 거리 (FVD)는 정답 키프레임 유무에 관계없이 정답(실제) 예제와 생성된 예제 간의 차이를 측정하여 수행 결과에 도달합니다.
또한 클립은 다음과 같이 GPT-4o와 6명의 주석 작성자에 의해 평가되었습니다. LLaVA-하운드의 ‘환각’ 정의(즉, 가짜 콘텐츠를 만들어내는 모델의 능력)
연구자들은 캡션의 품질을 다음과 비교했습니다. Qwen2-VL-72B 수집하여 약간 향상된 점수를 얻었습니다.
방법
VideoAuteur의 생성 단계는 장편 내러티브 디렉터 (LND)와 시각적 조건을 갖춘 비디오 생성 모델 (VCVGM).
LND는 ‘필수 하이라이트’와 유사하게 내러티브 흐름을 특징짓는 일련의 시각적 임베딩 또는 키프레임을 생성합니다. VCVGM은 이러한 선택을 기반으로 비디오 클립을 생성합니다.
저자들은 다양한 장점에 대해 광범위하게 논의합니다. 인터리브된 이미지-텍스트 디렉터 언어 중심의 키프레임 디렉터를 사용하고 전자가 더 효과적인 접근 방식이라고 결론을 내립니다.
인터리브된 이미지-텍스트 디렉터는 다음을 사용하여 텍스트 토큰과 시각적 임베딩을 인터리빙하여 시퀀스를 생성합니다. 자동 회귀 텍스트와 이미지의 결합된 컨텍스트를 기반으로 다음 토큰을 예측하는 모델입니다. 이를 통해 시각적 요소와 텍스트 간의 긴밀한 정렬이 보장됩니다.
대조적으로, 언어 중심 키프레임 디렉터는 생성 프로세스에 시각적 임베딩을 통합하지 않고 캡션에만 기반한 텍스트 조건 확산 모델을 사용하여 키프레임을 합성합니다.
연구원들은 언어 중심 방법이 시각적으로 매력적인 키프레임을 생성하지만 프레임 전체에 걸쳐 일관성이 부족하다는 사실을 발견했으며, 인터리브 방법이 사실성과 시각적 일관성 측면에서 더 높은 점수를 달성한다고 주장합니다. 그들은 또한 이 방법이 때로는 반복적이거나 시끄러운 요소가 있기는 하지만 훈련을 통해 현실적인 시각적 스타일을 더 잘 배울 수 있다는 것을 발견했습니다.
특이하게도 Stable Diffusion 및 Flux를 워크플로에 채택하는 것이 지배적인 연구 분야에서 저자는 Tencent의 SEED-X 생성 파이프라인을 위한 7B 매개변수 다중 모드 LLM 기반 모델(이 모델은 Stability.ai의 SDXL 아키텍처의 제한된 부분에 대한 Stable Diffusion 릴리스).
저자는 다음과 같이 말합니다.
이미지를 시작 프레임으로 사용하는 기존 I2V(이미지-비디오) 파이프라인과 달리 우리의 접근 방식은 [regressed visual latents] 전체에 걸쳐 지속적인 조건으로 [sequence].
‘게다가 회귀 오류로 인해 회귀된 시각적 잠재성이 완벽하지 않을 수 있으므로 시끄러운 시각적 임베딩을 처리하도록 모델을 조정하여 생성된 비디오의 견고성과 품질을 향상시킵니다.’
이러한 종류의 일반적인 시각적 조절 생성 파이프라인은 초기 키프레임을 모델 지침의 시작점으로 사용하는 경우가 많지만 VideoAuteur는 의미론적으로 일관된 다중 부분 시각적 상태를 생성하여 이 패러다임을 확장합니다. 잠재 공간‘시작 프레임’에만 추가 생성을 기반으로 하는 잠재적인 편견을 피합니다.
테스트
의 방법에 맞춰 씨드스토리연구원들은 SEED-X를 사용하여 내러티브 데이터 세트에 LoRA 미세 조정을 적용하고 결과를 ‘Sora와 유사한 모델’로 수수께끼처럼 설명하고 대규모 비디오/텍스트 결합에 대해 사전 훈련되었으며 시각적 및 텍스트 프롬프트 및 조건.
32,000개의 내러티브 비디오가 모델 개발에 사용되었으며, 1,000개는 별도로 남겨두었습니다. 검증 샘플. 비디오의 짧은 쪽은 448픽셀로 잘린 다음 중앙 부분은 448×448픽셀로 잘렸습니다.
훈련을 위해 내러티브 생성은 주로 YouCook2 검증 세트에서 평가되었습니다. Howto100M 세트는 데이터 품질 평가 및 이미지-비디오 생성에 사용되었습니다.
시각적 조절 손실의 경우 저자는 다음의 확산 손실을 사용했습니다. 그것 그리고 2024년 작품 안정적인 확산을 기반으로 합니다.
인터리빙이 우수한 접근 방식이라는 주장을 입증하기 위해 저자는 텍스트 기반 입력에만 의존하는 여러 방법에 대해 VideoAuteur를 비교했습니다. EMU-2SEED-X, SDXL 및 FLUX.1-빠른 (FLUX.1-s).
저자는 다음과 같이 말합니다.
‘텍스트-이미지 모델을 사용하는 언어 중심 접근 방식은 시각적으로 매력적인 키프레임을 생성하지만 제한된 상호 정보로 인해 프레임 간 일관성이 부족하다는 문제가 있습니다. 대조적으로, 인터리브 생성 방법은 언어 정렬된 시각적 잠재성을 활용하여 훈련을 통해 현실적인 시각적 스타일을 달성합니다.
‘그러나 자동 회귀 모델은 단일 패스에서 정확한 임베딩을 생성하는 데 어려움을 겪기 때문에 반복적이거나 잡음이 많은 요소가 있는 이미지를 생성하는 경우가 있습니다.’
인간의 평가는 인터리브 방식의 향상된 성능에 대한 저자의 주장을 더욱 확인시켜 주며, 인터리브 방법은 설문 조사에서 가장 높은 점수를 얻었습니다.
그러나 우리는 언어 중심 접근 방식이 최상의 결과를 달성한다는 점에 주목합니다. 미적인 점수. 그러나 저자들은 이것이 긴 서술형 비디오 생성의 핵심 문제가 아니라고 주장합니다.
재생하려면 클릭하세요. VideoAuteur가 피자 만들기 동영상용으로 생성한 세그먼트입니다.
결론
이 과제와 관련하여 가장 인기 있는 연구 분야, 즉 장편 비디오 생성의 내러티브 일관성은 단일 이미지에 관한 것입니다. 이런 종류의 프로젝트에는 다음이 포함됩니다. 드림스토리, 스토리확산, TheaterGen 그리고 엔비디아의 추기경 회의.
어떤 의미에서 VideoAuteur는 클립 섹션이 생성되는 시드 이미지를 사용하기 때문에 이 ‘정적’ 범주에 속합니다. 그러나 비디오와 의미론적 콘텐츠를 인터리빙하면 프로세스가 실제 파이프라인에 한 단계 더 가까워집니다.
2025년 1월 16일 목요일 첫 게시
게시물 긴 비디오 생성을 위한 내러티브 일관성 만들기 처음 등장한 Unite.AI.