AI 뉴스허브

단 두 개의 이미지로 더 나은 AI 비디오 생성

단 두 개의 이미지로 더 나은 AI 비디오 생성

단 두 개의 이미지로 더 나은 AI 비디오 생성

VFI(비디오 프레임 보간)은 미해결 문제 생성적 비디오 연구에서 문제는 비디오 시퀀스의 두 기존 프레임 사이에 중간 프레임을 생성하는 것입니다.

재생하려면 클릭하세요. Google과 워싱턴 대학의 공동 작업인 FILM 프레임워크는 취미 생활자 및 전문 분야에서 여전히 널리 사용되는 효과적인 프레임 보간 방법을 제안했습니다. 왼쪽에는 서로 다른 두 개의 프레임이 겹쳐져 있는 것을 볼 수 있습니다. 중간에 ‘끝 프레임’; 오른쪽에는 프레임 간의 최종 합성이 있습니다. 출처: https://film-net.github.io/ 및 https://arxiv.org/pdf/2202.04901

대체로 말하면, 이 기술의 역사는 100년 이상으로 거슬러 올라갑니다. 전통적인 애니메이션에 사용되는 그 이후로. 그러한 맥락에서 마스터 ‘키프레임’은 수석 애니메이션 아티스트가 생성하는 반면, 중간 프레임 ‘트위닝’ 작업은 다른 직원이 수행하는 것처럼 보다 비천한 작업으로 수행됩니다.

생성적 AI가 등장하기 전에는 다음과 같은 프로젝트에서 프레임 보간이 사용되었습니다. 실시간 중간유량 추정 (라이프), 깊이 인식 비디오 프레임 보간 (DAIN) 및 Google의 대규모 모션을 위한 프레임 보간 (FILM – 위 참조) 기존 비디오의 프레임 속도를 높이거나 인위적으로 생성된 슬로우 모션 효과를 활성화하기 위한 목적으로 사용됩니다. 이는 클립의 기존 프레임을 분할하고 추정된 중간 프레임을 생성하여 수행됩니다.

VFI는 더 나은 비디오 코덱 개발에도 사용되며, 보다 일반적으로는 광학 흐름– 기반 시스템(생성 시스템 포함)은 앞으로 나올 키프레임에 대한 사전 지식을 활용하여 키프레임 앞에 나오는 전면 광고 콘텐츠를 최적화하고 형성합니다.

생성적 비디오 시스템의 엔드 프레임

Luma 및 Kling과 같은 최신 생성 시스템을 사용하면 사용자는 시작 및 끝 프레임을 지정할 수 있으며 두 이미지의 키포인트를 분석하고 두 이미지 간의 궤적을 추정하여 이 작업을 수행할 수 있습니다.

아래 예에서 볼 수 있듯이 ‘닫는’ 키프레임을 제공하면 결과가 완벽하지 않더라도(특히 대규모 모션의 경우) 생성 비디오 시스템(이 경우 Kling)이 정체성과 같은 측면을 더 잘 유지할 수 있습니다.

재생하려면 클릭하세요. Kling은 사용자가 종료 프레임을 지정할 수 있는 Runway 및 Luma를 포함하여 점점 더 많은 비디오 생성기 중 하나입니다. 대부분의 경우 움직임을 최소화하면 가장 현실적이고 결함이 적은 결과를 얻을 수 있습니다. 출처: https://www.youtube.com/watch?v=8oylqODAaH8

위의 예에서 사용자가 제공한 두 키프레임 간에 사람의 신원이 일관되어 상대적으로 일관된 비디오 생성이 가능합니다.

시작 프레임만 제공되는 경우 생성 시스템의 관심 창은 일반적으로 비디오 시작 시 사람의 모습을 ‘기억’할 만큼 크지 않습니다. 오히려 모든 유사성이 사라질 때까지 각 프레임마다 정체성이 조금씩 바뀔 가능성이 높습니다. 아래 예에서는 시작 이미지가 업로드되었으며 텍스트 프롬프트에 따라 사람의 움직임이 안내됩니다.

재생하려면 클릭하세요. 끝 프레임이 없으면 Kling은 다음 프레임 생성을 안내하기 위해 바로 이전 프레임의 작은 그룹만 갖습니다. 중요한 움직임이 필요한 경우 이러한 정체성의 위축은 심각해집니다.

배우의 유사성은 명령에 탄력적이지 않다는 것을 알 수 있습니다. 왜냐하면 생성 시스템은 배우가 웃고 있을 때 어떤 모습일지 알지 못하고 시드 이미지(사용 가능한 유일한 참조)에서는 웃고 있지 않기 때문입니다.

대부분의 바이러스 생성 클립은 이러한 단점을 덜 강조하기 위해 신중하게 선별되었습니다. 그러나 시간적으로 일관된 생성 비디오 시스템의 발전은 프레임 보간과 관련된 연구 부문의 새로운 개발에 달려 있을 수 있습니다. 왜냐하면 가능한 유일한 대안은 구동 ‘가이드’ 비디오로서 전통적인 CGI에 의존하는 것이기 때문입니다(이 경우에도) , 텍스처와 조명의 일관성은 현재 달성하기 어렵습니다.

또한 최근 프레임의 소규모 그룹에서 새 프레임을 파생하는 천천히 반복되는 특성으로 인해 매우 어렵다 크고 대담한 움직임을 달성하기 위해. 이는 시스템이 훈련되었을 가능성이 있는 보다 점진적인 움직임과는 반대로 프레임을 가로질러 빠르게 움직이는 객체가 단일 프레임 공간에서 한 쪽에서 다른 쪽으로 이동할 수 있기 때문입니다.

마찬가지로, 중요하고 대담한 자세 변화는 정체성의 변화뿐만 아니라 생생한 불일치로 이어질 수 있습니다.

재생하려면 클릭하세요. Luma의 이 예에서는 요청된 움직임이 훈련 데이터에 잘 표현되지 않은 것으로 보입니다.

프레이머

이는 실제처럼 보이는 프레임 보간에서 새로운 최첨단 기술을 달성했다고 주장하는 중국의 흥미로운 최근 논문으로 이어지며, 드래그 기반 사용자 상호 작용을 제공하는 최초의 논문입니다.

프레이머를 사용하면 ‘자동’ 모드도 있지만 직관적인 드래그 기반 인터페이스를 사용하여 사용자가 모션을 지시할 수 있습니다.. 출처: https://www.youtube.com/watch?v=4MPGKgn7jRc

드래그 중심 애플리케이션이 되었습니다. 잦은 ~에 그만큼 문학 최근 연구 부문에서는 텍스트 프롬프트에서 얻은 상당히 조잡한 결과를 기반으로 하지 않는 생성 시스템에 대한 도구를 제공하기 위해 고군분투하고 있습니다.

라는 제목의 새로운 시스템 프레이머사용자 안내 드래그를 따를 수 있을 뿐만 아니라 보다 일반적인 ‘자동 조종’ 모드도 있습니다. 기존 트위닝 외에도 시스템은 저속 시뮬레이션은 물론 입력 이미지의 변형 및 새로운 보기를 생성할 수 있습니다.

Framer에서 저속 촬영 시뮬레이션을 위해 생성된 전면 광고 프레임입니다. 출처: https://arxiv.org/pdf/2410.18978

새로운 뷰 생성과 관련하여 Framer는 NeRF(Neural Radiance Fields) 영역을 약간 넘었습니다. 단 두 개의 이미지만 필요한 반면 NeRF는 일반적으로 6개 이상의 이미지 입력 ​​뷰가 필요합니다.

테스트에서 Stability.ai를 기반으로 한 Framer는 안정적인 영상확산 사용자 연구에서 잠재 확산 생성 비디오 모델은 유사한 경쟁 접근 방식보다 뛰어난 성능을 발휘할 수 있었습니다.

이 글을 쓰는 시점에는 코드가 공개되도록 설정되어 있습니다. GitHub에서. 위의 이미지에서 파생된 비디오 샘플은 프로젝트 사이트에서 사용할 수 있으며 연구원은 또한 유튜브 영상.

그만큼 새 종이 제목이 붙어있다 프레이머: 대화형 프레임 보간절강대학교와 Alibaba가 지원하는 Ant Group의 연구원 9명이 참여하고 있습니다.

방법

Framer는 두 가지 방식 중 하나에서 키포인트 기반 보간법을 사용합니다. 여기서 입력 이미지는 기본 토폴로지에 대해 평가되고 필요한 경우 ‘이동 가능한’ 포인트가 할당됩니다. 실제로 이러한 점은 ID 기반 시스템의 얼굴 랜드마크와 동일하지만 모든 표면에 일반화됩니다.

연구진 미세 조정된 안정적인 비디오 확산(SVD) 오픈비드-1M 추가 마지막 프레임 합성 기능을 추가합니다. 이는 끝 프레임을 향한(또는 끝 프레임에서 돌아오는) 경로를 평가할 수 있는 궤적 제어 메커니즘(아래 스키마 이미지의 오른쪽 상단)을 용이하게 합니다.

프레이머용 스키마.

마지막 프레임 조건화의 추가와 관련하여 저자는 다음과 같이 말합니다.

‘사전 훈련된 SVD의 시각적 사전율을 최대한 보존하기 위해 우리는 SVD의 조건화 패러다임을 따르고 각각 잠재 공간과 의미 공간에 엔드 프레임 조건을 주입합니다.

‘구체적으로 우리는 첫 번째 항목의 VAE 인코딩된 잠재 기능을 연결합니다. [frame] SVD에서와 마찬가지로 첫 번째 프레임의 잡음이 있는 잠재성을 사용합니다. 또한 조건과 해당 잡음 잠재성이 공간적으로 정렬된다는 점을 고려하여 마지막 프레임의 잠재 특성 zn을 끝 프레임의 잡음 잠재성과 연결합니다.

‘또한 첫 번째 프레임과 마지막 프레임의 CLIP 이미지 임베딩을 별도로 추출하고 교차 주의 기능 주입을 위해 이들을 연결합니다.’

드래그 기반 기능의 경우 궤적 모듈은 Meta Ai 기반 기능을 활용합니다. 공동 추적기 앞으로 수많은 가능한 경로를 평가하는 프레임워크입니다. 이는 1~10개의 가능한 궤도로 축소됩니다.

획득된 점 좌표는 다음에서 영감을 받은 방법론을 통해 변환됩니다. 드래그NUWA 그리고 무엇이든 드래그하세요 아키텍처. 이는 가우스 히트맵이동 대상 영역을 개별화합니다.

그 후, 데이터는 다음의 조건화 메커니즘에 공급됩니다. 컨트롤넷원래 Stable Diffusion을 위해 설계되었으며 이후 다른 아키텍처에 적용되는 보조 적합성 시스템입니다.

자동 조종 모드의 경우 기능 일치는 처음에 다음을 통해 수행됩니다. 체로 치다이는 다음에서 영감을 받은 자동 업데이트 메커니즘에 전달될 수 있는 궤적을 해석합니다. 드래그GAN 그리고 드래그확산.

Framer의 점 궤적 추정을 위한 스키마.

데이터 및 테스트

Framer의 미세 조정을 위해 공간적 주의와 잔여 블록은 다음과 같습니다. 시간적 주의 레이어와 잔차 블록만 영향을 받았습니다.

모델은 10,000번의 반복을 위해 학습되었습니다. 아담W학습률 1e-4의 배치 크기 of 16. 훈련은 16개의 NVIDIA A100 GPU에서 이루어졌습니다.

문제에 대한 이전 접근 방식은 드래그 기반 편집을 제공하지 않기 때문에 연구원들은 Framer의 자동 조종 모드를 이전 제품의 표준 기능과 비교하기로 결정했습니다.

현재 확산 기반 비디오 생성 시스템 범주에 대해 테스트된 프레임워크는 다음과 같습니다. LDMVFI; 다이나믹 크래프터; 그리고 SVDKFI. ‘전통적인’ 비디오 시스템의 경우 경쟁 프레임워크는 다음과 같습니다. 오전(AMT); 라이프; 플레이버; 그리고 앞서 언급한 영화.

사용자 연구 외에도 테스트가 수행되었습니다. 데이비스 그리고 UCF101 데이터 세트.

정성적 테스트는 연구팀의 객관적인 능력과 사용자 연구에 의해서만 평가될 수 있습니다. 그러나 전통적인 종이 노트 양적 측정항목은 당면한 제안에 크게 적합하지 않습니다.

‘[Reconstruction] PSNR, SSIM 및 LPIPS와 같은 측정항목은 원본 비디오와 픽셀 정렬되지 않은 다른 그럴듯한 보간 결과에 불이익을 주기 때문에 보간된 프레임의 품질을 정확하게 캡처하지 못합니다.

‘FID와 같은 생성 지표는 약간의 개선을 제공하지만 시간적 일관성을 고려하지 않고 프레임을 개별적으로 평가하지 않기 때문에 여전히 부족합니다.’

그럼에도 불구하고 연구원들은 다음과 같은 몇 가지 인기 있는 지표를 사용하여 정성적 테스트를 수행했습니다.

Framer와 경쟁 시스템의 정량적 결과.

저자들은 불리한 상황에도 불구하고 Framer가 여전히 목표 달성을 달성하고 있다고 지적합니다. 테스트된 방법 중 FVD 점수가 가장 높습니다.

다음은 정성적 비교를 위한 논문의 샘플 결과입니다.

이전 접근 방식과의 질적 비교. 더 나은 해상도를 보려면 논문과 https://www.youtube.com/watch?v=4MPGKgn7jRc의 동영상 결과를 참조하세요.

저자는 다음과 같이 논평합니다.

‘[Our] 방법은 기존 보간 기술에 비해 훨씬 더 선명한 질감과 자연스러운 움직임을 생성합니다. 이는 전통적인 방법으로 콘텐츠를 정확하게 보간하지 못하는 경우가 많은 입력 프레임 간의 상당한 차이가 있는 시나리오에서 특히 잘 작동합니다.

‘LDMVFI 및 SVDKFI와 같은 다른 확산 기반 방법과 비교하여 Framer는 까다로운 사례에 대한 탁월한 적응성을 보여주고 더 나은 제어 기능을 제공합니다.’

사용자 연구를 위해 연구원들은 20명의 참가자를 모아 테스트한 다양한 방법으로 무작위로 정렬된 100개의 비디오 결과를 평가했습니다. 따라서 가장 ‘현실적인’ 제품을 평가하는 1000개의 등급이 획득되었습니다.

사용자 연구 결과.

위 그래프에서 볼 수 있듯이 사용자들은 Framer의 결과를 압도적으로 선호했습니다.

YouTube와 함께하는 프로젝트 동영상 전체 개념이 시작된 모핑 및 만화 중간을 포함하여 프레이머의 잠재적인 다른 용도에 대해 설명합니다.

결론

현재 AI 기반 비디오 생성 작업에 있어 이 과제가 얼마나 중요한지는 아무리 강조해도 지나치지 않습니다. 현재까지 아마추어 및 전문 커뮤니티 모두에서 FILM 및 (AI가 아닌) EbSynth와 같은 오래된 솔루션을 프레임 간 트위닝에 사용했습니다. 그러나 이러한 솔루션에는 주목할만한 제한 사항이 있습니다.

새로운 T2V 프레임워크에 대한 공식 예제 비디오의 솔직하지 못한 큐레이션으로 인해 기계 학습 시스템이 3D 변형 모델(3DMM)과 같은 안내 메커니즘이나 기타 보조 접근 방식을 사용하지 않고도 움직이는 형상을 정확하게 추론할 수 있다는 대중의 오해가 널리 퍼져 있습니다. LoRA로서.

솔직히 말해서 트위닝 자체는 완벽하게 실행될 수 있다고 해도 이 문제에 대한 ‘해킹’이나 속임수에 불과합니다. 그럼에도 불구하고 텍스트 프롬프트나 현재 대안 범위를 통해 지침을 적용하는 것보다 잘 정렬된 두 개의 프레임 이미지를 생성하는 것이 더 쉽기 때문에 이 이전 방법의 AI 기반 버전에서 반복적인 진행 상황을 확인하는 것이 좋습니다.

2024년 10월 29일 화요일 첫 게시

게시물 단 두 개의 이미지로 더 나은 AI 비디오 생성 처음 등장한 Unite.AI.

Exit mobile version