생성 비디오에서 ‘사이의 공간’ 연결

Date:

FCVG 논문 및 프로젝트 사이트(https://arxiv.org/pdf/2412.11755 및 https://fcvg-inbetween.github.io/에서 가져온 이미지)

중국의 새로운 연구에서는 향상된 방법을 제시하고 있습니다. 보간 시간적으로 멀리 떨어진 두 비디오 프레임 사이의 간격 – 생성 AI 비디오와 비디오의 사실성을 향한 현재 경쟁에서 가장 중요한 과제 중 하나 코덱 압축.

아래 예제 비디오에서는 가장 왼쪽 열에 ‘시작'(왼쪽 위) 및 ‘끝'(왼쪽 아래) 프레임이 있습니다. 경쟁 시스템이 수행해야 하는 작업은 두 사진의 피사체가 프레임 A에서 프레임 B로 어떻게 이동할지 추측하는 것입니다. 애니메이션에서는 이 프로세스를 트위닝영화 제작의 침묵 시대를 회상합니다.

재생하려면 클릭하세요. 첫 번째 가장 왼쪽 열에는 제안된 시작 및 끝 프레임이 표시됩니다. 중간 열과 세 번째(가장 오른쪽) 열의 상단에는 이 과제에 대한 세 가지 사전 접근 방식이 나와 있습니다. 오른쪽 아래에서 새로운 방법이 삽입 프레임 제공에 있어 훨씬 더 확실한 결과를 얻는 것을 볼 수 있습니다.. 출처: https://fcvg-inbetween.github.io/

중국 연구진이 제안한 새로운 방법은 다음과 같다. 프레임별 조건 기반 비디오 생성 (FCVG) 및 그 결과는 위 비디오의 오른쪽 하단에서 볼 수 있으며, 한 스틸 프레임에서 다음 스틸 프레임으로 부드럽고 논리적인 전환을 제공합니다.

대조적으로, 우리는 비디오 보간을 위한 가장 유명한 프레임워크 중 하나인 Google의 대규모 모션을 위한 프레임 보간 (FILM) 프로젝트, 투쟁, 많은 유사한 나들이가 어려움을 겪습니다.크고 대담한 움직임을 해석합니다.

영상에 시각화된 다른 두 개의 경쟁 프레임워크는 시간 반전 융합 (TRF) 및 생성적 결합 (GI)는 덜 왜곡된 해석을 제공하지만 제공된 두 프레임의 암시적 논리를 존중하지 않는 열광적이고 코믹한 댄스 동작을 만들어 냈습니다.

재생하려면 클릭하세요. 트위닝 문제에 대한 두 가지 불완전한 해결책. 왼쪽에서 FILM은 두 프레임을 단순한 모프 대상으로 처리합니다. 그렇습니다. TRF는 어떤 형태의 춤을 삽입해야 한다는 것을 알고 있지만 해부학적 이상을 보여주는 실행 불가능한 해결책을 제시합니다.

왼쪽 위에서는 FILM이 이 문제에 어떻게 접근하고 있는지 자세히 살펴볼 수 있습니다. FILM은 대규모 모션을 처리할 수 있도록 설계되었지만, 광학 흐름제공된 두 키프레임 사이에 어떤 일이 발생해야 하는지에 대한 의미론적 이해가 여전히 부족하며 단순히 프레임 간에 1980/90년대 스타일 변형을 수행합니다. FILM에는 다음과 같은 의미론적 아키텍처가 없습니다. 잠재 확산 모델 좋다 안정적인 확산프레임 사이에 적절한 브리지를 만드는 데 도움이 됩니다.

위 영상의 오른쪽에는 TRF의 노력이 담겨 있습니다. 안정적인 영상확산 (SVD)는 사용자가 제공한 두 프레임에 적합한 춤 동작이 어떻게 될지 보다 지능적으로 ‘추측’하는 데 사용되지만 대담하고 믿을 수 없는 근사치를 만들었습니다.

아래에 표시된 FCVG는 두 프레임 사이의 움직임과 내용을 추측하는 데 있어 보다 신뢰할 수 있는 작업을 수행합니다.

재생하려면 클릭하세요. FCVG는 이전 접근 방식을 개선했지만 완벽하지는 않습니다.

원치 않는 손 변형이나 얼굴 정체성과 같은 인공물이 여전히 있지만 이 버전이 표면적으로 가장 그럴듯하며 작업이 제안하는 엄청난 어려움에 대비해 최신 기술에 대한 개선을 고려해야 합니다. 그리고 AI 생성 비디오의 미래에 대한 도전이 제시하는 큰 장애물입니다.

보간이 중요한 이유

우리가 가지고 있는 것처럼 전에 지적한사용자가 제공한 두 프레임 사이에 비디오 콘텐츠를 그럴듯하게 채우는 기능은 유지 관리를 위한 가장 좋은 방법 중 하나입니다. 시간적 일관성 생성 비디오에서는 같은 사람의 실제 사진과 연속된 두 장의 사진이 옷, 머리카락, 환경과 같은 일관된 요소를 자연스럽게 포함하기 때문입니다.

단지 하나의 시작 프레임이 사용됩니다. 제한된 주의 창 종종 가까운 프레임만 고려하는 생성 시스템은 (예를 들어) 남자가 다른 남자(또는 여자)가 되거나 ‘변형’하는 것으로 입증될 때까지 주제의 측면을 점차적으로 ‘진화’하는 경향이 있습니다. 의류 – 오픈 소스 T2V 시스템과 Kling과 같은 대부분의 유료 솔루션에서 일반적으로 생성되는 많은 방해 요소 중 다음과 같습니다.

재생하려면 클릭하세요. ‘지붕에서 춤추는 남자’라는 메시지와 함께 새 논문의 두 (실제) 소스 프레임을 Kling에 입력해도 이상적인 솔루션이 나오지 않았습니다. Kling 1.6은 제작 당시 사용 가능했지만 V1.5는 사용자 입력 시작 및 종료 프레임을 지원하는 최신 버전입니다. 출처: https://klingai.com/

문제가 이미 해결되었나요?

이와 대조적으로 일부 상용 폐쇄 소스 및 독점 시스템은 문제를 더 잘 해결하는 것으로 보입니다. 특히 RunwayML은 두 소스 프레임 사이에 매우 그럴듯한 결과를 생성할 수 있었습니다.

재생하려면 클릭하세요. RunwayML의 확산 기반 보간은 매우 효과적입니다. 출처: https://app.runwayml.com/

연습을 반복하면서 RunwayML은 똑같이 신뢰할 수 있는 두 번째 결과를 생성했습니다.

재생하려면 클릭하세요. RunwayML 시퀀스의 두 번째 실행입니다.

여기서 한 가지 문제는 독점 시스템에서는 관련된 과제에 대해 아무것도 배울 수 없고 오픈 소스 기술 수준을 발전시킬 수 없다는 것입니다. 이러한 우수한 렌더링이 고유한 아키텍처 접근 방식, 데이터(또는 필터링 및 주석과 같은 데이터 큐레이션 방법) 또는 이들과 기타 가능한 연구 혁신의 조합을 통해 달성되었는지 여부는 알 수 없습니다.

둘째, 시각 효과 회사와 같은 소규모 회사는 단일 가격 인상으로 물류 계획을 잠재적으로 훼손할 수 있는 B2B API 기반 서비스에 장기적으로 의존할 수 없습니다. 특히 하나의 서비스가 시장을 지배하게 되어 결국 가격을 인상하려는 성향이 더 강합니다.

권리가 잘못되었을 때

훨씬 더 중요한 것은 성능이 좋은 상용 모델이 라이선스가 없는 데이터로 훈련된다면, RunwayML의 경우처럼 보입니다.그러한 서비스를 사용하는 모든 회사는 후속 법적 노출 위험을 초래할 수 있습니다.

법률(및 일부 소송)은 대통령보다 오래 지속되며 중요한 미국 시장은 세계에서 가장 소송이 많은 곳 중 하나AI 훈련 데이터에 대한 입법적 감독을 강화하려는 현재 추세는 지속될 것으로 보입니다. ‘가벼운 터치’ 도널드 트럼프의 차기 대통령 임기 중.

따라서 컴퓨터 비전 연구 부문은 새로운 솔루션이 장기적으로 지속될 수 있도록 이 문제를 어려운 방식으로 해결해야 합니다.

FCVG

중국의 새로운 방법은 종이 제목이 붙은 프레임별 조건 기반 비디오 생성을 통한 생성적 인비트위닝하얼빈 공과대학과 텐진대학교의 연구원 5명이 참여하고 있습니다.

FCVG는 다음을 활용하여 보간 작업의 모호성 문제를 해결합니다. 프레임별 조건설명하는 프레임워크와 함께 가장자리 사용자가 제공한 시작 및 끝 프레임에서 이는 프로세스가 개별 프레임 간의 전환과 전체 효과를 보다 일관되게 추적하는 데 도움이 됩니다.

프레임별 조건화에는 두 프레임 사이의 매우 큰 의미 공백을 채우는 대신 삽입 프레임 생성을 하위 작업으로 나누는 작업이 포함됩니다(요청된 비디오 출력이 길수록 의미 거리가 더 커집니다).

아래 그래픽에서 저자는 앞서 언급한 시간 반전(TRF) 방법을 자신의 방법과 비교합니다. TRF는 사전 훈련된 이미지-비디오 모델(SVD)을 사용하여 두 개의 비디오 생성 경로를 생성합니다. 하나는 시작 프레임을 조건으로 하는 ‘앞으로’ 경로이고, 다른 하나는 끝 프레임을 조건으로 하는 ‘뒤로’ 경로입니다. 두 길은 모두 같은 곳에서 시작된다 무작위 소음. 이는 아래 이미지의 왼쪽에 설명되어 있습니다.

FCVG에 대한 이전 접근 방식의 비교. 출처: https://arxiv.org/pdf/2412.11755

FCVG에 대한 이전 접근 방식의 비교. 출처: https://arxiv.org/pdf/2412.11755

저자는 FCVG가 각 프레임에 고유한 명시적 조건을 제공하여 보다 안정적이고 일관된 출력을 제공함으로써 비디오 생성의 모호성을 줄이기 때문에 시간 반전 방법보다 개선되었다고 주장합니다.

논문에서는 TRF와 같은 시간 역전 방법이 모호성을 초래할 수 있다고 주장합니다. 왜냐하면 정방향 및 역방향 생성 경로가 분기되어 정렬 불량이나 불일치가 발생할 수 있기 때문입니다. FCVG는 생성 프로세스를 안내하는 시작 프레임과 끝 프레임(위 이미지의 오른쪽 아래) 사이의 일치하는 선에서 파생된 프레임별 조건을 사용하여 이 문제를 해결합니다.

클릭 t아 놀아. FCVG 프로젝트 페이지의 또 다른 비교입니다.

시간 반전을 사용하면 미리 훈련된 비디오 생성 모델을 사용하여 중간에 연결할 수 있지만 몇 가지 단점이 있습니다. I2V 모델에 의해 생성된 모션은 다음과 같습니다. 다양한 오히려 안정적이다. 이는 순수 이미지-비디오(I2V) 작업에 유용하지만 모호성을 야기하고 비디오 경로가 잘못 정렬되거나 일관되지 않게 됩니다.

시간 반전에는 또한 힘든 조정이 필요합니다. 하이퍼 매개변수생성된 각 비디오의 프레임 속도 등이 있습니다. 또한 모호성을 줄이기 위해 시간 반전에 수반되는 일부 기술은 추론 속도를 크게 저하시켜 처리 시간을 늘립니다.

방법

저자는 이러한 문제 중 첫 번째 문제(다양성 대 안정성)가 해결될 수 있다면 다른 모든 후속 문제도 스스로 해결될 가능성이 높다는 점을 관찰합니다. 이는 앞서 언급한 GI와 같은 이전 제품에서도 시도된 바 있으며, ViBiDS샘플러.

논문에는 다음과 같이 명시되어 있습니다.

‘그럼에도 불구하고 [there] 이러한 경로 사이에는 여전히 상당한 확률성이 존재하므로 인간 자세의 급격한 변화와 같은 대규모 동작이 포함된 시나리오를 처리할 때 이러한 방법의 효율성이 제한됩니다. 보간 경로의 모호함은 주로 중간 프레임에 대한 조건이 충분하지 않기 때문에 발생합니다. 두 개의 입력 이미지는 시작 및 끝 프레임에 대한 조건만 제공하기 때문입니다.

‘그러므로 [we] 보간 경로의 모호성을 크게 완화하는 각 프레임에 대해 명시적인 조건을 제공하는 것이 좋습니다.’

아래 스키마에서 FCVG의 핵심 개념을 볼 수 있습니다. FCVG는 두 개의 입력 프레임으로 일관되게 시작하고 끝나는 일련의 비디오 프레임을 생성합니다. 이렇게 하면 비디오 생성 프로세스에 대한 프레임별 조건을 제공하여 프레임이 일시적으로 안정적이게 됩니다.

FCVG 추론을 위한 스키마.

FCVG 추론을 위한 스키마.

시간 반전 접근 방식을 다시 생각해 보면 이 방법은 순방향과 역방향의 정보를 결합하고 혼합하여 부드러운 전환을 만듭니다. 반복 프로세스를 통해 모델은 최종 내부 프레임 세트가 생성될 때까지 잡음이 있는 입력을 점차적으로 개선합니다.

다음 단계에서는 사전 훈련된 글루스틱 Stable Video Diffusion 모델을 통해 모델을 안내하는 골격 포즈를 선택적으로 사용하여 계산된 두 개의 시작 프레임과 끝 프레임 사이의 대응 관계를 생성하는 라인 일치 모델입니다.

글루스틱 해석된 모양에서 선을 가져옵니다. 이 라인은 FCVG*의 시작 프레임과 끝 프레임 사이에 일치하는 앵커를 제공합니다.

GlueStick은 해석된 모양에서 선을 파생합니다. 이 라인은 FCVG*의 시작 프레임과 끝 프레임 사이에 일치하는 앵커를 제공합니다.

저자는 다음과 같이 언급합니다.

‘우리는 대부분의 경우 비디오 사이의 시간적 안정성을 보장하기 위해 선형 보간이 충분하다는 것을 경험적으로 발견했으며, 우리의 방법을 통해 사용자는 원하는 생성을 위한 비선형 보간 경로를 지정할 수 있습니다. [videos].’

순방향 및 역방향 프레임별 조건을 설정하기 위한 워크플로입니다. 애니메이션이 진행됨에 따라 콘텐츠의 일관성을 유지하는 일치하는 색상을 볼 수 있습니다.

순방향 및 역방향 프레임별 조건을 설정하기 위한 워크플로입니다. 애니메이션이 진행됨에 따라 콘텐츠의 일관성을 유지하는 일치하는 색상을 볼 수 있습니다.

획득한 프레임별 조건을 SVD에 주입하기 위해 FCVG는 2024년에 개발된 방법을 사용합니다. 컨트롤넥스트 계획. 이 과정에서 제어 조건은 초기에 여러 가지로 인코딩됩니다. 레스넷 워크플로의 조건과 SVD 분기 간의 교차 정규화 전 블록입니다.

소수의 비디오 세트가 다음 용도로 사용됩니다. 미세 조정 대부분의 모델 매개변수를 포함하는 SVD 모델 .

‘그만큼 [aforementioned limitations] FCVG에서는 다음과 같은 문제가 크게 해결되었습니다. (i) 각 프레임에 대한 조건을 명시적으로 지정함으로써 순방향 경로와 역방향 경로 간의 모호성이 크게 완화됩니다. (ii) 단 하나의 조정 가능 항목 [parameter is introduced]SVD의 하이퍼파라미터를 기본값으로 유지하면서 대부분의 시나리오에서 유리한 결과를 얻습니다. (iii) 잡음 재주입 없이 단순 평균 융합이 FCVG에 적합하며 추론 단계는 이전에 비해 50%까지 실질적으로 줄어들 수 있습니다. [GI].’

FCVG용 Stable Video Diffusion에 프레임별 조건을 주입하기 위한 광범위한 스키마입니다.

FCVG용 Stable Video Diffusion에 프레임별 조건을 주입하기 위한 광범위한 스키마입니다.

데이터 및 테스트

시스템을 테스트하기 위해 연구원들은 카메라 움직임, 춤 동작, 표정 등의 동작을 포함하여 야외 환경, 인간 포즈, 내부 위치를 포함한 다양한 장면을 포함하는 데이터 세트를 선별했습니다. 선택된 524개의 클립은 다음에서 가져왔습니다. 데이비스 그리고 부동산10k 데이터 세트. 이 컬렉션은 Pexels에서 얻은 높은 프레임 속도의 비디오로 보완되었습니다. 선별된 세트는 다음과 같습니다. 나뉘다 미세 조정과 테스트 간의 비율은 4:1입니다.

사용된 측정항목은 다음과 같습니다. 학습된 지각 유사성 측정항목 (LPIPS); 프레셰 시작 거리 (버팀대); 프레셰 비디오 거리 (FVD); V벤치; 그리고 Fréchet 비디오 모션 거리.

저자는 이러한 측정 항목 중 어느 것도 시간적 안정성을 추정하는 데 적합하지 않다는 점을 지적하고 FCVG 프로젝트 페이지의 동영상을 참조하도록 합니다.

라인 매칭을 위해 GlueStick을 사용하는 것 외에도 DW 포즈 인간의 자세를 추정하는 데 사용되었습니다.

70,000번의 반복을 위한 미세 조정 도구 위치 아담W NVIDIA A800 GPU의 최적화 프로그램, 학습 속도 1×10-6프레임이 512×320 패치로 잘립니다.

테스트된 이전 경쟁 프레임워크는 FILM, GI, TRF 및 DynamiCrafter.

정량적 평가를 위해 처리된 프레임 간격은 12에서 23 사이였습니다.

이전 프레임워크에 대한 정량적 결과.

이전 프레임워크에 대한 정량적 결과.

이러한 결과에 대해 논문에서는 다음과 같이 관찰합니다.

‘[Our] 방법은 모든 지표에 걸쳐 4가지 생성 접근 방식 중에서 최고의 성능을 달성합니다. FILM과의 LPIPS 비교에서는 FCVG가 약간 열등한 반면 다른 지표에서는 우수한 성능을 보여줍니다. LPIPS에는 시간적 정보가 없다는 점을 고려하면 다른 지표와 시각적 관찰에 우선순위를 두는 것이 더 적절할 수 있습니다.

‘게다가 서로 다른 프레임 간격에서 결과를 비교하면 간격이 작을 때 FILM이 잘 작동할 수 있는 반면 생성 방법은 간격이 클 때 더 적합할 수 있습니다. 이러한 생성 방법 중에서 우리의 FCVG는 명시적인 프레임별 조건으로 인해 상당한 우월성을 나타냅니다.’

정성적 테스트를 위해 저자는 프로젝트 페이지에서 볼 수 있는 비디오(일부는 이 기사에 포함됨)와 정적 및 애니메이션 비디오를 제작했습니다. 결과는 PDF 문서로,

논문에서 정적 결과를 샘플링합니다. 더 나은 해상도를 얻으려면 원본 PDF를 참조하십시오. PDF에는 이 기능을 지원하는 응용 프로그램에서 재생할 수 있는 애니메이션이 포함되어 있습니다.

논문에서 정적 결과를 샘플링합니다. 더 나은 해상도를 위해 원본 PDF를 참조하고, PDF에는 이 기능을 지원하는 응용 프로그램에서 재생할 수 있는 애니메이션이 포함되어 있다는 점에 유의하세요.

저자는 다음과 같이 논평합니다.

‘FILM은 작은 모션 시나리오에 대해 부드러운 보간 결과를 생성하지만 광학 흐름의 고유한 제한으로 인해 대규모 모션에 어려움을 겪어 배경 및 손 움직임(첫 번째 경우)과 같은 눈에 띄는 아티팩트가 발생합니다.

‘TRF 및 GI와 같은 생성 모델은 불안정한 중간 동작으로 이어지는 융합 경로의 모호함으로 인해 어려움을 겪습니다. 특히 인간과 물체 동작이 포함된 복잡한 장면에서 두드러집니다.

‘반대로, 우리의 방법은 다양한 시나리오에서 일관되게 만족스러운 결과를 제공합니다. ‘심각한 폐색이 있는 경우(두 번째 경우와 여섯 번째 경우)에도 우리의 방법은 여전히 ​​합리적인 움직임을 포착할 수 있습니다. 더욱이, 우리의 접근 방식은 복잡한 인간 행동(마지막 경우)에 대한 견고성을 보여줍니다.’

저자는 또한 FCVG가 애니메이션 스타일 비디오에 대해 비정상적으로 잘 일반화된다는 사실을 발견했습니다.

재생하려면 클릭하세요. FCVG는 만화 스타일 애니메이션에 대해 매우 설득력 있는 결과를 생성합니다.

결론

FCVG는 비독점적 맥락에서 프레임 보간 분야의 최첨단 기술에 대한 점진적인 개선을 나타냅니다. 저자는 작품의 코드를 만들었습니다. GitHub에서 사용 가능하지만 관련 데이터세트는 이 글을 쓰는 시점에 공개되지 않았습니다.

독점적인 상용 솔루션이 웹에서 스크랩한 무면허 데이터를 사용하여 오픈 소스 노력을 능가하는 경우, 적어도 상업적 용도의 경우 그러한 접근 방식에는 미래가 제한되거나 전혀 없는 것처럼 보입니다. 위험이 너무 큽니다.

따라서 오픈 소스 장면이 현재 시장 리더들의 인상적인 쇼케이스보다 뒤처지더라도 틀림없이 결승선까지 토끼를 이길 수 있는 것은 거북이일 것입니다.

* 원천: https://openaccess.thecvf.com/content/ICCV2023/papers/Pautrat_GlueStick_Robust_Image_Matching_by_Sticking_Points_and_Lines_Together_ICCV_2023_paper.pdf

포함된 PDF 애니메이션을 재생할 수 있는 Acrobat Reader, Okular 또는 기타 PDF 리더가 필요합니다.

첫 게시일: 2024년 12월 20일 금요일

게시물 생성 비디오에서 ‘사이의 공간’ 연결 처음 등장한 Unite.AI.

Share post:

Subscribe

Popular

More like this
Related

Matternet, 드론 배송 확대를 위해 ANRA의 UTM 기술 추가

Matternet의 M2 드론은 도시 및 교외 지역에서 최대 20km(12.4마일)...

Alimak Group, Skyline Robotics와 자율 건물 유지 관리 유닛 창설

Skyline Robotics의 주력 로봇인 Ozmo는 힘 센서를 사용하여 창문을...

DoorDash는 Wing과 제휴하여 Dallas-Fort Worth 쇼핑몰에서 드론 배송을 시작합니다.

Wing은 자사의 드론이 15분 안에 물품과 식사를 문앞까지 배달할...

비디오 금요일: 즐거운 휴일 보내세요!

Video Friday는 친구들이 수집한 멋진 로봇 공학 비디오를 매주...