더 나은 AI 기반 비디오 편집 도로

Date:

논문 'Videopainter : 플러그 앤 플레이 컨텍스트 제어를 사용한 모든 길이의 비디오 및 편집'의 이미지.

비디오/이미지 합성 연구 부문은 정기적으로 비디오 편집* 아키텍처를 출력하며 지난 9 개월 동안이 특성의 외출이 더욱 빈번 해졌습니다. 즉, 핵심 도전은 상당하기 때문에 대부분의 최첨단 발전만을 나타냅니다.

그러나 이번 주 중국과 일본 간의 새로운 협력으로 인해 반드시 랜드 마크 작업이 아니더라도 접근 방식을 면밀히 조사 할 수있는 몇 가지 사례가 제작되었습니다.

아래의 비디오 클립 (논문의 관련 프로젝트 사이트에서 경고-경고-브라우저에 세금을 부과 할 수 있음)에서 시스템의 심해 기능은 현재 구성에 존재하지 않지만 시스템은 비디오 마스크 (하단 왼쪽)를 기반으로 한 그림에서 젊은 여성의 정체성을 상당히 변경하는 데 큰 도움이된다는 것을 알 수 있습니다.

플레이하려면 클릭하십시오. 왼쪽 하단에서 시각화 된 시맨틱 세분화 마스크를 기반으로, 원래의 (왼쪽 상단) 여성은 프롬프트에 표시된 신원 -SWAP를 달성하지 않더라도 현저히 다른 정체성으로 변환됩니다. 출처 : https://yxbian23.github.io/project/video-painter/ (글을 쓰는 시점 에서이 자동 배송 및 비디오 스터드 사이트는 내 브라우저를 충돌시키려는 경향이있었습니다). 더 나은 해상도 및 세부 사항에 대해 액세스 할 수있는 경우 소스 비디오를 참조하거나 프로젝트의 개요 비디오 (https://www.youtube.com/watch?v=hyznfsd3a0s)에서 예제를 확인하십시오.

이러한 종류의 마스크 기반 편집은 정적으로 잘 확립되어 있습니다 잠복 확산 모델같은 도구를 사용합니다 Controlnet. 그러나 비디오의 배경 일관성을 유지하는 것은 마스크 영역이 모델에 창의적인 유연성을 제공하는 경우에도 훨씬 더 어려운 일입니다.

플레이하려면 클릭하십시오. 새로운 videopainter 방법으로 종의 변화. 더 나은 해상도 및 세부 사항에 대해 액세스 할 수있는 경우 소스 비디오를 참조하거나 프로젝트의 개요 비디오 (https://www.youtube.com/watch?v=hyznfsd3a0s)에서 예제를 확인하십시오.

새로운 작품의 저자는 Tencent 자신의 방법에 대한 방법을 고려합니다. 브러시 넷 아키텍처 (what 우리는 작년에 다루었습니다) 및 제어 넷으로, 둘 다 전경 및 배경 생성을 분리 할 수있는 이중 브랜치 아키텍처를 처리합니다.

그러나이 방법을 매우 생산적인 확산 변압기 (DIT) 접근법에 직접 적용합니다. 제안 Openai의 Sora는 저자가 지적한대로 특별한 도전을 가져옵니다.”

‘[Directly] 적용 [the architecture of BrushNet and ControlNet] 비디오 Dits에게는 몇 가지 과제가 나타납니다. [Firstly, given] 컨텍스트 인코더가 불필요하고 계산적으로 금지되므로 비디오 DIT의 강력한 생성 기초와 무거운 모델 크기는 전체/하프 거리는 비디오 DIT 백본을 복제합니다.

‘[Secondly, unlike] Brushnet의 순수 컨 컨트롤 컨트롤 브랜치 인 마스크 된 지역의 DIT 토큰은 본질적으로 전 세계적으로 관심으로 인해 배경 정보를 포함하여 DIT 백본의 마스킹되지 않은 영역과 마스크되지 않은 영역 간의 구별을 복잡하게합니다.

‘[Finally,] Controlnet은 모든 레이어에 걸쳐 기능 주입이 부족하여 인과하는 작업에 대한 조밀 한 배경 제어를 방해합니다. ‘

따라서 연구원들은 제목의 이중 브랜치 프레임 워크 형태로 플러그 앤 플레이 방식을 개발했습니다. Videopainter.

VideoPainter는 가벼운 컨텍스트 인코더로 미리 훈련 된 딥을 향상시키는 듀얼 브랜치 비디오 인 페인팅 프레임 워크를 제공합니다. 이 인코더는 백본 매개 변수의 6%만을 차지하며, 저자는 기존 방법보다 접근 방식이 더 효율적이라고 주장합니다.

이 모델은 세 가지 주요 혁신을 제안합니다. 효율적인 배경 지침을위한 간소화 된 2 층 컨텍스트 인코더; 마스크 및 마스크되지 않은 토큰을 분리하는 마스크 선택적 기능 통합 시스템; 그리고 긴 비디오 시퀀스에 걸쳐 정체성 일관성을 유지하는 인 페인팅 영역 ID 리 샘플링 기술.

에 의해 동결 미리 훈련 된 DIT 및 컨텍스트 인코더는 모두 ID 자리 어색을 도입하면서 모두 이전 클립의 영역 토큰을 비디오 전체에서 지속시켜 깜박임과 불일치를 줄이도록합니다.

이 프레임 워크는 플러그 앤 플레이 호환성을 위해 설계되었으며, 사용자는 기존 비디오 생성 및 편집 워크 플로에 원활하게 통합 할 수 있습니다.

사용하는 작업을 지원합니다 Cogvideo-5B-I2V 생성 엔진으로서, 저자는 현재까지 가장 큰 비디오 인 페인팅 데이터 세트입니다. 제목 vpdata컬렉션은 총 비디오 지속 시간이 886 시간 이상 390,000 개 이상의 클립으로 구성됩니다. 또한 관련 벤치마킹 프레임 워크를 개발했습니다 vpbench.

플레이하려면 클릭하십시오. 프로젝트 웹 사이트 예제에서 VPDATA 컬렉션과 VPBENCH 테스트 스위트로 구동되는 세그먼테이션 기능을 볼 수 있습니다. 더 나은 해상도 및 세부 사항에 대해 액세스 할 수있는 경우 소스 비디오를 참조하거나 프로젝트의 개요 비디오 (https://www.youtube.com/watch?v=hyznfsd3a0s)에서 예제를 확인하십시오.

그만큼 새로운 작품 제목이 있습니다 Videopainter : 플러그 앤 플레이 컨텍스트 제어로 모든 길이의 비디오가 부착 및 편집Tencent Arc Lab, 중국 홍콩 대학교, 도쿄 대학 및 마카오 대학교에서 7 명의 저자가 출시되었습니다.

앞서 언급 한 프로젝트 사이트 외에도 저자는 더 접근하기 쉬운 것을 발표했습니다. YouTube 개요또한 a 포옹 페이스 페이지.

방법

VPDATA 용 데이터 수집 파이프 라인은 수집, 주석, 분할, 선택 및 캡션으로 구성됩니다.

데이터 세트 구성 파이프 라인 스키마. 출처 : https://arxiv.org/pdf/2503.05639

데이터 세트 구성 파이프 라인 스키마. 출처 : https://arxiv.org/pdf/2503.05639

이 컴파일에 사용 된 소스 컬렉션은에서 나왔습니다 videvo 그리고 Pexels초기 450,000 개의 비디오가 획득되었습니다.

다수의 기여 라이브러리 및 메소드는 사전 처리 단계를 포함했습니다. 무엇이든 인식하십시오 프레임 워크는 기본 객체를 식별하는 작업을 수행하는 오픈 세트 비디오 태깅을 제공하는 데 사용되었습니다. 접지 디노 식별 된 물체 주위의 경계 상자를 감지하는 데 사용되었습니다. 그리고 모든 모델 2를 분할하십시오 (SAM 2) 프레임 워크를 사용하여 이러한 거친 선택을 고품질 마스크 세분화로 개선했습니다.

장면 전환을 관리하고 비디오 수입의 일관성을 보장하기 위해 Videopainter는 사용합니다. pyscenedetect 자연스러운 중단 점에서 클립을 식별하고 분할하려면 여러 각도에서 동일한 물체를 추적하여 종종 발생하는 파괴적인 시프트를 피합니다. 클립은 10 초 간격으로 나누어졌으며 6 초보다 짧은 것이 버려졌습니다.

데이터 선택의 경우 3 가지 필터링 기준이 적용되었습니다. 미적 품질, Laion-eesthetic score predictor; 모션 강도측정 됨 광학 흐름 사용 뗏목; 그리고 콘텐츠 안전안정적인 확산을 통해 확인 안전 검사기.

기존 비디오 세분화 데이터 세트의 주요 제한 사항 중 하나는 세부 텍스트 주석이 부족하여 생성 모델을 안내하는 데 중요합니다.

연구원들은 비슷한 컬렉션에서 화상 캡션 부족을 강조합니다.

연구원들은 비슷한 컬렉션에서 화상 캡션 부족을 강조합니다.

따라서 Videopainter 데이터 큐 레이션 프로세스에는 cogvlm2 그리고 채팅 GPT-4O 키 프레임 기반 캡션 및 마스크 된 영역에 대한 자세한 설명을 생성합니다.

Videopainter는 아래 그림 스키마의 오른쪽 상단에 표시되는 전경 생성에서 배경 컨텍스트 추출을 분리하는 맞춤형 가벼운 컨텍스트 인코더를 도입하여 미리 훈련 된 DIT를 향상시킵니다.

videopainter를위한 개념적 스키마. Videopainter의 컨텍스트 인코더는 시끄러운 잠복, 다운 샘플링 된 마스크 및 VAE를 통해 마스크 된 비디오 잠재심을 처리하여 배경 토큰 만 미리 훈련 된 DIT에 통합하여 모호성을 피합니다. ID RESALLE 어댑터는 훈련 중에 마스크 된 영역 토큰을 연결하고 추론 중에 이전 클립에서 리샘플링하여 동일성 일관성을 보장합니다.

videopainter를위한 개념적 스키마. Videopainter의 컨텍스트 인코더는 시끄러운 잠복, 다운 샘플링 된 마스크 및 VAE를 통해 마스크 된 비디오 잠재심을 처리하여 배경 토큰 만 미리 훈련 된 DIT에 통합하여 모호성을 피합니다. ID RESALLE 어댑터는 훈련 중에 마스크 된 영역 토큰을 연결하고 추론 중에 이전 클립에서 리샘플링하여 동일성 일관성을 보장합니다.

중복 처리로 백본을 부담하는 대신,이 인코더는 간소화 된 입력에서 작동합니다. 시끄러운 잠복, 마스킹 비디오 잠재기 ( 다양한 카 스코더또는 vae) 및 다운 샘플링 마스크.

시끄러운 잠재력은 생성 컨텍스트를 제공하며, 마스크 비디오 잠복은 DIT의 기존 분포와 일치하여 호환성을 향상시키기위한 것입니다.

저자 상태가 이전 작품에서 발생한 모델의 큰 섹션을 복제하는 대신 Videopainter는 DIT의 첫 두 층 만 통합합니다. 이러한 추출 된 특징은 구조화되고 그룹별 방식으로 얼어 붙은 DIT에 다시 도입됩니다. 초기 층 기능은 모델의 초기 절반을 알려주고 나중에 특징은 후반을 세분화합니다.

또한, 토큰 선택 메커니즘은 배경 관련 특징 만 재 통합되어 마스크되지 않은 영역 사이의 혼란을 방지합니다. 저자들은이 접근 방식이 Videopainter가 배경 보존에서 높은 충실도를 유지하면서 전경 인화 효율을 향상시킬 수있게 해줍니다.

저자는 그들이 제안하는 방법이 가장 인기있는 것을 포함하여 다양한 스타일 방식을 지원한다고 지적합니다. 낮은 순위 적응 (로라).

데이터 및 테스트

Videopainter는 Cogvideo-5B-I2V 모델을 사용하여 텍스트-비디오와 동등한 교육을 받았습니다. 선별 된 vpdata 코퍼스는 480x720px에서 사용되었습니다. 학습 속도 1 × 10-5.

ID RESALLE 어댑터는 2,000 단계로 교육을 받았으며 컨텍스트 인코더는 80,000 단계를 사용하여 아담 최적화. 훈련은 강력한 64 NVIDIA V100 GPU를 사용하여 두 단계로 이루어졌습니다 (논문은 16GB 또는 32GB의 VRAM을 가지고 있는지 여부를 지정하지는 않습니다).

벤치마킹을 위해 데이비스 임의의 마스크 및 세분화 기반 마스크를위한 저자 자체 VPBench에 사용되었습니다.

VPBench 데이터 세트는 객체, 동물, 인간, 풍경 및 다양한 작업을 특징으로하며 4 가지 작업을 다룹니다. 추가하다,,, 제거하다,,, 변화그리고 교환. 이 컬렉션에는 45 초 비디오와 9 개의 비디오가 평균 30 초 동안 지속됩니다.

프로세스에 8 개의 메트릭이 사용되었습니다. 가면 지역 보존의 경우 저자가 사용했습니다 피크 신호 ​​대 잡음비 (PSNR); 배운 지각 유사성 지표 (LPIPS); 구조적 유사성 지수 (SSIM); 그리고 평균 절대 오류 (Mae).

텍스트 정렬의 경우 연구원들이 사용했습니다 클립 유사성 둘 다 평가하기 위해 클립의 캡션과 실제인지 된 컨텐츠 사이의 에메 틱 거리와 마스크 된 영역의 정확도를 평가합니다.

출력 비디오의 일반적인 품질을 평가하려면 Fréchet 비디오 거리 (FVD)가 사용되었다.

비디오 인화에 대한 정량적 비교 라운드를 위해 저자는 이전 접근 방식에 대해 시스템을 설정했습니다. propainter,,, Cococo 그리고 코그 인프 (Cogvideox). 이 테스트는 이미지를 입력하는 모델을 사용하여 클립의 첫 번째 프레임을 입증 한 다음 I2V (Image-to-Video) 백본을 사용하여 결과를 잠재적 인 블렌드 작업으로 전파하여 2023 종이 이스라엘에서.

프로젝트 웹 사이트는 작성 당시 완전히 기능적이지 않기 때문에 프로젝트의 관련 YouTube 비디오에는 프로젝트 사이트에 채워진 예제가 포함되어 있지 않을 수 있으므로 논문에 요약 된 결과에 매우 구체적인 비디오 예제를 찾기가 다소 어렵습니다. 따라서 논문에 소개 된 부분 정적 결과를 보여주고 프로젝트 사이트에서 추출 할 수있는 몇 가지 추가 비디오 예제로 기사를 닫을 것입니다.

VPBench (세그먼트 화 마스크) 및 Davis (랜덤 마스크)에서 Videopainter vs. Propainter, Cococo 및 Cog-Inp의 정량적 비교. 메트릭은 마스크 지역 보존, 텍스트 정렬 및 비디오 품질을 덮습니다. 빨간색 = 최고, 파란색 = 두 번째 최고.

VPBench (세그먼트 화 마스크) 및 Davis (랜덤 마스크)에서 Videopainter vs. Propainter, Cococo 및 Cog-Inp의 정량적 비교. 메트릭은 마스크 지역 보존, 텍스트 정렬 및 비디오 품질을 덮습니다. 빨간색 = 최고, 파란색 = 두 번째 최고.

이러한 질적 결과 중에서 저자는 다음과 같이 언급합니다.

‘세분화 기반 VPBench, Propainter 및 Cococo에서 대부분의 측정 항목에서 최악의 성능을 보여줍니다. 주로 완전히 마스킹 된 물체를 inpaint 할 수없고 단일 백본 아키텍처가 각각 경쟁 배경 보존 및 전경 생성의 균형을 유지하는 데 어려움을 겪기 때문입니다.

‘Random Mask Benchmark Davis에서 Propainter는 부분 배경 정보를 활용하여 개선을 보여줍니다. 그러나 Videopainter는 배경 보존 및 전경 생성을 효과적으로 분해하는 듀얼 브랜치 아키텍처를 통해 세분화 (표준 및 긴 길이) 및 임의의 마스크에서 최적의 성능을 달성합니다. ‘

그런 다음 저자는 질적 테스트의 정적 예를 제시하며, 그 중 우리는 아래에서 선택을 특징으로합니다. 모든 경우에 우리는 더 나은 해상도를 위해 독자를 프로젝트 사이트와 YouTube 비디오를 참조합니다.

사전 프레임 워크에서 수용 방법에 대한 비교.

사전 프레임 워크에서 수용 방법에 대한 비교.

플레이하려면 클릭하십시오. 프로젝트 사이트의 ‘결과’비디오에서 우리가 연결 한 예.

비디오 인화를위한이 질적 라운드와 관련하여 저자는 다음과 같이 언급합니다.

‘Videopainter는 비디오 일관성, 품질 및 텍스트 캡션과의 정렬에서 탁월한 결과를 지속적으로 보여줍니다. 특히, Propainter는 완전히 마스킹 된 물체를 생성하지 못합니다. 왜냐하면 생성 대신 배경 픽셀 전파에 의존하기 때문입니다.

‘Cococo는 기본 기능을 보여 주지만, 배경 보존 및 전경 생성의 균형을 맞추려는 단일 백 컨버이 아키텍처로 인해 인화 된 지역 (일관되지 않은 선박 외관 및 갑작스러운 지형 변화)에서 일관된 ID를 유지하지 못합니다.

‘Cog-INP는 기본적인 입학 결과를 달성합니다. 그러나 혼합 작업이 마스크 경계를 감지 할 수 없으면 상당한 아티팩트가 발생합니다.

‘VideoPainter는 ID 리샘플링을 통해 ID 일관성을 유지하면서 1 분을 초과하는 일관된 비디오를 생성 할 수 있습니다. “

연구원들은 캡션을 늘리고이 방법으로 개선 된 결과를 얻는 Videopainter의 능력을 추가로 테스트하여 시스템을 반대하는 것입니다. Uniedit,,, ditctrl그리고 반복.

세 가지 이전 접근법에 대한 비디오 편집 결과.

세 가지 이전 접근법에 대한 비디오 편집 결과.

저자는 다음과 같습니다.

‘VPBench의 표준 비디오와 긴 비디오 모두에서 VideoPainter는 탁월한 성능을 달성하며 엔드 투 엔드 리바이오를 능가합니다. 이 성공은 듀얼 브랜치 아키텍처에 기인하여 우수한 배경 보존 및 전경 생성 기능을 보장하여 비 편집 된 지역에서 높은 충실도를 유지하면서 편집 지침과 밀접하게 조정되며, 긴 비디오에서 ID 일관성을 유지하는 지역 ID 리 샘플링에 의해 보완 된 편집 지침과 밀접하게 조정됩니다. ‘

이 논문은이 메트릭에 대한 정적 질적 예제를 특징으로하지만, 그것들은 조화를 이루지 않으며, 우리는이 프로젝트를 위해 발표 된 다양한 비디오에 퍼져있는 다양한 예제를 독자에게 언급합니다.

마지막으로, 30 명의 사용자가 VPBench 및 편집 서브 세트에서 무작위로 선택된 50 세대를 평가하도록 요청 받았으며, 여기서 인간 연구가 수행되었습니다. 이 예제는 배경 보존, 프롬프트 정렬 및 일반적인 비디오 품질을 강조했습니다.

videopainter의 사용자 연구 결과.

videopainter의 사용자 연구 결과.

저자 상태 :

‘Videopainter는 기존 기준선을 크게 능가하여 두 작업의 모든 평가 기준에서 더 높은 선호율을 달성했습니다.’

그러나 그들은 Videopainter 세대의 품질이 복잡한 움직임과 물리학으로 어려움을 겪을 수있는 기본 모델에 달려 있음을 인정합니다. 그리고 그들은 또한 품질이 낮은 마스크 나 잘못 정렬 된 캡션으로 제대로 작동하지 않는다는 것을 관찰합니다.

결론

Videopainter는 문헌에 가치있는 추가로 보입니다. 그러나 최근 솔루션의 일반적인 경우 상당한 컴퓨팅 요구가 있습니다. 또한, 프로젝트 사이트에서 프레젠테이션을 위해 선택된 많은 예제는 최고의 예에 미치지 못합니다. 따라서이 프레임 워크가 향후 출품작과 더 넓은 범위의 이전 접근법에 맞서 싸우는 것이 흥미로울 것입니다.

* 이런 의미에서 ‘비디오 편집’이 ‘다양한 클립을 시퀀스로 조립하는 것’을 의미하지는 않는다는 것은 언급 할 가치가 있습니다.이 용어의 전통적인 의미입니다. 오히려 기계 학습 기술을 사용하여 기존 비디오 클립의 내부 내용을 직접 변경하거나 어떤 방식 으로든 수정하십시오.

2025 년 3 월 10 일 월요일에 처음 출판되었습니다

게시물 더 나은 AI 기반 비디오 편집 도로 먼저 나타났습니다 Unite.ai.

Share post:

Subscribe

Popular

More like this
Related

로봇 공학 서밋에서 바이오닉 기술의 라이브 데모를 제공하는 Psyonic

Psyonic은 능력 핸드는 19 개의 사전 정의 및 사용...

Amazon은 Robotics Summit & Expo에서 로봇 공학 진화에 대해 논의합니다.

Amazon의 창고 로봇에는 직원이 포장 할 개별 품목을 정렬하는...

세계 최초의 암모니아 연료 선박이 걸려 넘어집니다

그만큼 바이킹 에너지석유 플랫폼 공급선 암모니아 연료를 운영하기 위해...

새로운 Edge AI Playbook : 교육 모델이 어제의 도전 인 이유

우리는 구름에서 가장자리 컴퓨팅 환경으로 확장함에 따라 인공 지능의...