훈련 중에 프레임을 셔플하는 더 나은 생성 AI 비디오

3월 22, 2025

이번 주 ARXIV에서 새로운 논문은 후유아 비디오 또는 WAN 2.1 AI 비디오 생성기는 지금까지 발생했을 것입니다. 시간적 수차생성 프로세스가 갑자기 속도가 빨라지거나 충돌, 생략 또는 다른 방식으로 중요한 순간을 엉망으로 만드는 경향이있는 경우 :

플레이하려면 클릭하십시오. 새 논문에서 강조된 새로운 생성 비디오 시스템의 사용자에게 친숙 해지는 시간적 결함 중 일부. 오른쪽으로, 새로운 플럭스 플로우 접근법의 개선 효과. 출처 : https://haroldchen19.github.io/fluxflow/

위의 비디오에는 예제 테스트 비디오의 발췌문이 있습니다 (Be Warned : DORPION Chaotic) 프로젝트 사이트 종이를 위해. 우리는 저자의 방법 (비디오의 오른쪽 그림)에 의해 점점 더 익숙해지는 몇 가지 문제를 알 수 있습니다. 데이터 세트 전처리 모든 생성 비디오 아키텍처에 적용 가능한 기술.

첫 번째 예에서, ‘공을 가지고 노는 두 아이’가 등장합니다. Cogvideox우리는 (위의 컴파일 비디오와 아래의 특정 예에서 왼쪽에서) 원시 세대가 몇 가지 필수 마이크로 움직임을 빠르게 뛰어 넘어 어린이의 활동을 ‘만화’피치까지 빠르게 뛰어 넘는 것을 볼 수 있습니다. 대조적으로, 동일한 데이터 세트와 방법은 새로운 전처리 기술로 더 나은 결과를 얻습니다. 플럭스 플로우 (아래 비디오에서 이미지의 오른쪽에) :

플레이하려면 클릭하십시오.

두 번째 예에서 (사용 노바 -0.6b) 우리는 고양이와 관련된 중심 운동이 어떤 식 으로든 훈련 단계에서 손상되거나 크게 샘플링되었으며, 생성 시스템이 ‘마비’되고 주제를 움직일 수 없다는 점까지 다음과 같습니다.

플레이하려면 클릭하십시오.

움직임이나 피험자가 ‘고정’되는이 증후군은 다양한 이미지 및 비디오 합성 그룹에서 HV와 WAN의 가장 자주보고되는 버그 부류 중 하나입니다.

이러한 문제 중 일부는 소스 데이터 세트의 비디오 캡션 문제와 관련이 있습니다. 이번 주를 살펴 보았습니다; 그러나 새로운 작품의 저자는 대신 훈련 데이터의 시간적 특성에 그들의 노력에 초점을 맞추고, 그 관점에서 문제를 해결하면 유용한 결과를 얻을 수 있다는 설득력있는 주장을한다.

비디오 캡션에 관한 이전 기사에서 언급했듯이 스포츠 주요 순간으로 분리하기가 특히 어렵습니다. 즉, 중요한 사건 (예 : 슬램 덩크)은 훈련 시간에 필요한 관심을 얻지 못합니다.

플레이하려면 클릭하십시오.

위의 예에서, 생성 시스템은 다음 단계의 운동 단계에 도달하는 방법을 알지 못하고, 한 포즈에서 다음 포즈로 비논리적으로 전송하여 프로세스에서 플레이어의 태도와 기하학을 바꿉니다.

이것들은 훈련에서 잃어버린 큰 움직임입니다. 그러나 똑같이 취약한 나비 날개의 펄럭입니다.

플레이하려면 클릭하십시오.

슬램 덩크와는 달리, 날개의 펄럭 거리는 것은 ‘드문’것이 아니라 지속적이고 단조로운 사건입니다. 그러나 움직임이 너무 빠르기 때문에 일시적으로 확립하기가 매우 어렵 기 때문에 샘플링 프로세스에서 일관성이 상실됩니다.

이 문제는 특히 새로운 문제는 아니지만 현지 설치 및 자유 세대를위한 애호가가 강력한 생성 비디오 모델을 사용할 수있게되면서 더 큰 관심을 받고 있습니다.

Reddit과 Discord의 커뮤니티는 처음에 이러한 문제를 ‘사용자 관련’으로 취급했습니다. 문제의 시스템이 매우 새롭고 최소한으로 문서화되어 있기 때문에 이것은 이해할 수있는 추정입니다. 따라서 다양한 전문가들은 Hunyuan Video (HV) 및 WAN 2.1 용 다양한 유형의 Comfyui 워크 플로우의 다양한 구성 요소에서 설정을 변경하는 등 여기에 기록 된 일부 결함에 대한 다양한 (항상 효과적이지 않은) 치료법을 제안했습니다.

어떤 경우에는 빠른 움직임을 생성하기보다는 HV와 WAN이 모두 생산합니다. 느린 운동. Reddit 및 Chatgpt (주로 Reddit을 활용하는)의 제안에 포함됩니다. 프레임 수 변경 요청 된 생성에서 또는 프레임 속도*를 근본적으로 낮추는 경우.

이것은 모두 절망적 인 것들입니다. 새로운 진실은 우리가 이러한 문제에 대한 정확한 원인이나 정확한 구제책을 아직 모른다는 것입니다. 분명히, 세대 설정을 주변에서 작업하기 위해 고문하는 것은 (특히 이로 인해 출력 품질이 저하 될 때, 예를 들어 FPS 비율이 너무 낮은 경우) 단지 단지 단지 단지 스톱 일 뿐이며, 연구 장면이 신흥 문제를 신속하게 해결하고 있음을 알게되어 기쁩니다.

따라서 이번 주 캡션이 훈련에 어떤 영향을 미치는지 살펴 보는 것 외에도 시간 정규화에 대한 새로운 논문과 현재 생성 비디오 장면을 제공 할 수있는 개선 사항을 살펴 보겠습니다.

중심 아이디어는 다소 단순하고 미미하며, 그 어느 것도 더 나쁘지 않습니다. 그럼에도 불구 하고이 용지는 규정 된 8 페이지에 도달하기 위해 다소 패딩되어 있으며, 필요에 따라이 패딩을 건너 뛸 것입니다.

Videocrafter 프레임 워크의 고유 세대의 물고기는 정적이며 플럭스 플로우 변경 버전은 필수 변경 사항을 캡처합니다. 출처 : https://arxiv.org/pdf/2503.15417

그만큼 새로운 작품 제목이 있습니다 시간 정규화로 인해 비디오 생성기가 더 강력 해집니다Everlyn AI, 홍콩 과학 기술 대학교 (HKUST), 중앙 플로리다 대학교 (UCF) 및 홍콩 대학교 (HKU)에서 8 명의 연구원이 출시되었습니다.

(글을 쓰는 시점에는 논문이 함께 제공되는 몇 가지 문제가 있습니다. 프로젝트 사이트))

플럭스 플로우

뒤에있는 중심 아이디어 플럭스 플로우저자의 새로운 사전 훈련 스키마는 광범위한 문제를 극복하는 것입니다. 꺼질 것 같은 그리고 시간적 불일치 소스 데이터가 교육 프로세스에 노출되므로 시간 프레임 순서의 블록 및 블록 그룹을 셔플 링하여

Fluxflow의 중심 아이디어는 블록 및 블록 그룹을 데이터 확대의 형태로 예상치 못한 및 비 임시 위치로 이동시키는 것입니다.

이 논문은 다음을 설명합니다.

‘[Artifacts] 기본 제한에서 비롯됩니다. 대규모 데이터 세트를 활용하더라도, 현재 모델은 다양한 시간적 역학을 배우기보다는 훈련 데이터 (예 : 고정 된 보행 방향 또는 반복적 인 프레임 전환)에서 단순화 된 시간 패턴에 의존합니다.

‘이 문제는 훈련 중에 명백한 시간적 증강의 부족으로 인해 더욱 악화되며, 모델은 다양한 모션 시나리오에서 일반화하기보다는 가짜 시간 상관 관계 (예 :“프레임 #5를 따라야한다”)에 과적하기 쉬운 상태를 유지합니다.

저자들은 대부분의 비디오 생성 모델이 여전히 너무 많이 빌린다. 영상 시간적 축을 크게 무시하면서 공간 충실도에 중점을 둔 합성. 자르기, 뒤집기 및 컬러 지 터링과 같은 기술이 정적 이미지 품질을 향상시키는 데 도움이되었지만 동작에 적용될 때 적절한 솔루션은 아니며, 모션의 환상은 프레임에 걸친 일관된 전환에 달려 있습니다.

결과적으로 문제는 깜박 거리는 텍스처, 프레임 사이의 삐걱 거리는 컷, 반복적이거나 지나치게 단순한 모션 패턴을 포함합니다.

플레이하려면 클릭하십시오.

이 논문은 일부 모델을 포함한다고 주장한다 안정적인 비디오 확산 그리고 전화 – 점점 더 복잡한 아키텍처 또는 엔지니어링 제약 조건을 보상하면 컴퓨팅 및 유연성 측면에서 비용이 발생합니다.

시간적 데이터 확대는 이미 비디오에서 유용한 것으로 입증되었습니다. 이해 작업 (예 : 프레임 워크 미세한,,, 세파 그리고 svform) 저자들은이 전술이 생성적인 맥락에서 거의 적용되지 않는다고 주장하는 것은 놀라운 일이다.

파괴적인 행동

연구원들은 훈련 중에 시간 순서로 단순하고 구조화 된 중단이 현실적이고 다양한 움직임에 더 나은 일반화하는 데 도움이된다고 주장합니다.

‘무질서한 서열에 대한 훈련을 통해 발전기는 그럴듯한 궤적을 회수하는 법을 배웁니다. Fluxflow는 차별적 및 생성 시간 증강 사이의 간격을 연결하여 시간적으로 그럴듯한 비디오 생성을위한 플러그 앤 플레이 향상 솔루션을 제공하면서 전반적으로 개선합니다. [quality].

‘아키텍처 변경을 도입하거나 사후 처리에 의존하는 기존 방법과 달리 플럭스 플로우는 데이터 수준에서 직접 작동하여 훈련 중에 제어 된 시간적 섭동을 도입합니다.’

플레이하려면 클릭하십시오.

저자는 프레임 수준의 섭동이 시퀀스 내에서 세밀한 중단을 소개합니다. 이런 종류의 파괴는 다르지 않습니다 마스킹 증강시스템 섹션이 무작위로 차단되어 시스템을 방지합니다. 지나치게 적합합니다 데이터 포인트에서 더 나은 장려 일반화.

테스트

여기서 중심 아이디어는 전장 용지로 실행되지는 않지만 단순성으로 인해 우리가 살펴볼 수있는 테스트 섹션이 있습니다.

저자는 공간 충실도를 유지하면서 시간적 품질 향상과 관련하여 4 개의 쿼리를 테스트했습니다. 운동/광학 흐름 역학 학습 능력; 외계 생성에서 시간적 품질 유지; 및 주요 하이퍼 파라미터에 대한 민감도.

연구원들은 플럭스 플로우를 3 개의 생성 아키텍처에 적용했습니다 : U-Net 기반, videocrafter2; 그것-Cogvideox-2b의 형태로 기반; 그리고 AR-기반, Nova-0.6b의 형태.

공정한 비교를 위해, 그들은 플럭스 플로우를 추가 훈련 단계로 사용하여 아키텍처의 기본 모델을 미세 조정했습니다. 시대,에 OpenVidhd-0.4m 데이터 세트.

모델은 두 가지 인기있는 벤치 마크에 대해 평가되었습니다. UCF-101; 그리고 vbench.

UCF의 경우 Fréchet 비디오 거리 (FVD) 및 시작 점수 (IS) 메트릭이 사용되었습니다. vbench의 경우 연구원들은 시간적 품질, 프레임 현행 품질 및 전반적인 품질에 집중했습니다.

플럭스 플로우 프레임의 정량적 초기 평가. “+ Original”은 플럭스 플로우가없는 훈련을 나타내고 “+ num × 1″은 다른 플럭스 플로우 프레임 구성을 보여줍니다. 최상의 결과는 음영 처리되어 있습니다. 각 모델에 대해 두 번째로 밑줄이 그어져 있습니다.

이 결과에 대해 언급하면서 저자는 다음과 같이 말합니다.

‘플럭스 플로우 프레임과 플럭스 플로우 블록은 시간 퀘이를 크게 향상시킵니다 탭의 메트릭에 의해 입증 된대로 lity. 1, 2 (예 : FVD, 피험자, 깜박임, 움직임 및 동적) 및 질적 결과 [image below].

예를 들어, VC2에서 표류 차량의 움직임, 노바에서 꼬리를 쫓는 고양이, CVX에서 파도를 타는 서퍼는 플럭스 플로우로 눈에 띄게 유동화됩니다. 중요하게도, 이러한 시간적 개선은 공간적 충실도를 희생시키지 않으면 서 공간적 충실도를 희생하지 않고 달성됩니다.

아래에서 우리는 저자가 참조하는 질적 결과 중에서 선택한 것을 볼 수 있습니다 (전체 결과와 더 나은 해상도는 원래 논문을 참조하십시오).

질적 결과에서 선택.

이 논문은 프레임 레벨 및 블록 레벨 섭동이 모두 시간적 품질을 향상 시키지만 프레임 레벨 방법은 더 나은 성능을 발휘하는 경향이 있음을 시사합니다. 이것은 더 정밀한 세분성에 기인하여보다 정확한 시간 조정을 가능하게합니다. 대조적으로 블록 수준의 섭동은 블록 내에서 밀접하게 결합 된 공간 및 시간적 패턴으로 인해 노이즈를 유발하여 효과를 줄일 수 있습니다.

결론

이 논문은 Bytedance-Tsinghua와 함께 캡션 협업 이번 주에 발표 된 새로운 세대의 생성 비디오 모델의 명백한 단점은 사용자 오류, 제도적 실수 또는 자금 조달 한계로 인해 발생할 수 있고, 이러한 덜 우려하는 것에 비해 시간적 일관성 및 일관성과 같은 더 긴급한 문제를 이해 한 연구 초점에서 비롯된 것임을 분명히 밝혔습니다.

최근까지, 자유롭게 사용할 수 있고 다운로드 가능한 생성 비디오 시스템의 결과는 너무 타협되어 열광적 인 노력의 위치가 문제를 해결하기 위해 열광적 인 커뮤니티에서 나오지 않았다 (적어도 문제가 기본적이고 사소한 용서가 아니기 때문에).

우리는 순수한 AI 생성 사진 비디오 출력의 오랜 시대에 훨씬 더 가깝기 때문에 연구와 캐주얼 커뮤니티 모두 남아있는 문제를 해결하는 데 더 깊고 생산적인 관심을 끌고 있음이 분명합니다. 운 좋게도, 이것들은 다루기 어려운 장애물이 아닙니다.

* WAN의 기본 프레임 속도는 16fps이며, 내 문제에 대한 응답으로 포럼은 프레임 속도가 12fps의 낮은 낮은 수준을 낮추고 사용한다고 제안했습니다. 흐름 프레임 또는 다른 AI 기반 재 플라이 시스템은 이러한 드문 수의 프레임 사이의 간격을 보간합니다.

2025 년 3 월 21 일 금요일에 처음 출판되었습니다

게시물 훈련 중에 프레임을 셔플하는 더 나은 생성 AI 비디오 먼저 나타났습니다 Unite.ai.

News Week
Magazine PRO

Company

훈련 중에 프레임을 셔플하는 더 나은 생성 AI 비디오

플럭스 플로우

파괴적인 행동

테스트

결론

LEAVE A REPLY Cancel reply

About us

Company

The latest

Wibotic은 무선 로봇 충전에 대한 세 가지 인증을 얻습니다

Serv Robotics는 전달 로봇을 향상시키기 위해 Vayu 로봇 공학을 인수합니다

경력 성장에는 단일 초점이 필요합니다

News WeekMagazine PRO

Company

관련된 글:

플럭스 플로우

파괴적인 행동

테스트

결론

관련된 글:

LEAVE A REPLY Cancel reply

About us

Company

The latest

Wibotic은 무선 로봇 충전에 대한 세 가지 인증을 얻습니다

Serv Robotics는 전달 로봇을 향상시키기 위해 Vayu 로봇 공학을 인수합니다

경력 성장에는 단일 초점이 필요합니다

News Week
Magazine PRO