AI 뉴스허브

AI 비디오가 때때로 뒤로 가져 오는 이유

AI 비디오가 때때로 뒤로 가져 오는 이유

AI 비디오가 때때로 뒤로 가져 오는 이유

2022 년이 생성 AI가 더 넓은 대중의 상상력을 포착 한 해라면 2025 년 동영상 중국에서 오는 프레임 워크도 마찬가지입니다.

Tencent ‘s Hunyuan 비디오는 a 큰 영향 취미사 AI 커뮤니티에서 사용자가 할 수있는 전 세계 비디오 확산 모델의 오픈 소스 릴리스 그들의 필요에 맞게 조정하십시오.

발 뒤꿈치가 닫는 것은 알리바바의 최근입니다 WAN 2.1,이 기간의 가장 강력한 이미지-비디오 Foss 솔루션 중 하나-이제 사용자 정의를 지원합니다. 완 로라스.

최근의 인간 중심 기초 모델의 가용성 외에 스카이 릴글을 쓰는 시점에서 우리는 또한 Alibaba의 포괄적 인 출시를 기다리고 있습니다. vace 비디오 제작 및 편집 스위트 :

플레이하려면 클릭하십시오. Alibaba의 다기능 AI- 편집 Suite Vace의 출시중인 릴리스는 사용자 커뮤니티를 흥분 시켰습니다. 출처 : https://ali-vilab.github.io/vace-page/

갑작스런 영향

생성 비디오 AI 연구 장면 자체는 폭발적이지 않습니다. 3 월 상반기에도 여전히 Arxiv의 컴퓨터 비전 섹션 (생성 AI 용지의 허브)에 대한 화요일 제출은 거의 350 개의 항목으로 왔습니다.

2 년 후 시작하다 2022 년 여름에 안정적인 확산 (및 후속 개발 Dreambooth 그리고 로라 커스터마이징 방법)은 지난 몇 주까지 새로운 발전이 부족하여 새로운 릴리스와 혁신이 시작된 속도로 진행되어 모든 것을 계속 평가할 수 없으며, 그 모든 것을 훨씬 덜 커버하는 것이 거의 불가능합니다.

Hunyuan 및 WAN 2.1과 같은 비디오 확산 모델은 오랫동안 해결되었으며 수백 가지의 연구 이니셔티브에서 수년간의 노력이 실패한 후 문제 ~의 시간적 일관성 그것은 인간의 세대와 관련이 있으며, 주로 환경과 대상과도 관련이 있습니다.

VFX Studios가 현재 새로운 중국 비디오 모델을 조정하여 현재의 부족에도 불구하고 Face-Swapping과 같은 즉각적인 문제를 해결하기 위해 직원과 자원을 적용하고 있다는 것은 의심의 여지가 없습니다. Controlnet-이 시스템의 스타일 보조 메커니즘.

그런 중요한 장애물 중 하나가 예상되는 길을 통해서는 아니지만 잠재적으로 극복되었을 것이라는 안도감이어야합니다.

그러나 남아있는 문제 중에는이 문제가 중요하지 않습니다.

플레이하려면 클릭하십시오. ‘작은 암석이 가파른 바위 언덕, 대체 토양과 작은 돌’인 프롬프트를 바탕으로 새 용지에서 가장 높은 점수를 얻은 Wan 2.1은 간단한 오류를 만듭니다. 출처 : https://videophy2.github.io/

언덕 위로 거꾸로

상업용 폐쇄 소스 모델을 포함하여 현재 사용 가능한 모든 텍스트-비디오 및 이미지-비디오 시스템은 위의 One과 같은 물리적 블로퍼를 생산하는 경향이 있습니다. 고개 위로프롬프트 기반 ‘작은 암석은 가파르고 바위가 많은 언덕 아래로 쏟아져 넓어지는 토양과 작은 돌 ‘.

왜 이런 일이 일어나는지에 대한 한 가지 이론, 최근에 제안되었습니다 알리바바와 UAE 간의 학문적 협력에서 모델은 비디오에 대한 훈련을받을 때에도 (훈련 목적으로 단일 프레임 시퀀스에 쓰여 져 있음)에도 항상 단일 이미지로 항상 훈련한다는 것입니다. 그리고 그들은 반드시 올바른 시간적 순서를 배울 수는 없습니다. ‘전에’ 그리고 ‘후에’ 영화.

그러나 가장 가능성이 높은 솔루션은 문제의 모델이 사용했다는 것입니다. 데이터 확대 소스 훈련 클립을 모델에 두 가지 전진에 노출시키는 일상 그리고 뒤로, 교육 데이터를 효과적으로 두 배로 늘립니다.

일부 움직임이 반대로 작동하기 때문에 이것이 임의로 수행되어서는 안된다는 것이 오랫동안 알려져 왔지만 많은 사람들은 그렇지 않습니다. 에이 2019 년 연구 영국의 브리스톨 대학교에서 구별 할 수있는 방법을 개발하려고했습니다. 동일합니다,,, 불변 그리고 뒤집을 수 없는 소스 데이터 비디오 클립 단일 데이터 세트에서 공동 존재하는 (아래 이미지 참조), 부적합한 소스 클립이 데이터 증강 루틴에서 필터링 될 수 있다는 개념과 함께.

세 가지 유형의 움직임의 예는 그 중 하나만 그럴듯한 물리적 역학을 유지하면서 자유롭게 가역적입니다. 출처 : https://arxiv.org/abs/1909.09422

해당 작업의 저자는 문제를 분명히 틀어줍니다.

‘우리는 역전 된 비디오의 현실감이 자연 세계에서는 불가능한 장면의 측면에 의해 배신되는 것을 발견했습니다. 일부 인공물은 미묘하지만, 다른 인공물은 방향이 바닥에서 자발적으로 상승하는 역전 된 ‘던지기’동작과 같이 쉽게 발견하기 쉽습니다.

‘우리는 물리적 인 두 가지 유형의 반전 인공물, 자연의 법칙 위반을 나타내는 것, 그리고 불가능한 시나리오를 묘사 한 것을 관찰합니다. 이것들은 배타적이지 않으며, 많은 역전 된 행동은 종이 조각을 긁을 때와 같이 두 가지 유형의 인공물을 겪습니다.

‘물리적 인공물의 예에는 거꾸로 된 중력 (예 :’무언가를 떨어 뜨리는 것 ‘), 물체의 자발적 충동 (예 :’펜을 회전 함) 및 돌이킬 수없는 상태 변화 (예 : ‘촛불을 태우기’)가 포함됩니다. 불가능한 유물의 예 : 찬장에서 접시를 가져 가서 건조하고 건조 선반에 놓습니다.

‘이러한 종류의 데이터 재사용은 교육 시간에 매우 일반적이며 유익 할 수 있습니다. 예를 들어, 모델이 중심 일관성과 논리를 잃지 않고 뒤집거나 회전 할 수있는 이미지 나 객체에 대한 단 하나의보기 만 배우지 않도록하는 데 도움이 될 수 있습니다.

‘이것은 물론 진정으로 대칭적인 물체에만 적용됩니다. 그리고 ‘반전 된’비디오에서 물리 학습은 역방 된 버전이 전방 버전만큼이나 의미가있는 경우에만 작동합니다.

임시 반전

우리는 Hunyuan Video 및 WAN 2.1과 같은 시스템이 훈련 중에 임의로 ‘역전 된’클립을 모델에 노출시킬 수 있다는 증거가 없습니다 (데이터 확대 루틴과 관련하여 연구자 그룹은 구체적이지 않았습니다).

그러나 유일한 합리적인 대안 가능성은 너무 많은 보고서 (그리고 내 자신의 실제 경험),이 모델에 전력을 공급하는 초 저격 데이터 세트는 클립을 포함 할 수있는 것 같습니다. 실제로 반대로 발생하는 움직임이 있습니다.

위에 내장 된 예제의 암석은 WAN 2.1을 사용하여 생성되었으며, 비디오 확산 모델이 물리학을 얼마나 잘 처리하는지 조사하는 새로운 연구의 기능.

이 프로젝트의 테스트에서 WAN 2.1은 물리 법칙을 지속적으로 준수하는 능력 측면에서 22%의 점수 만 달성했습니다.

그러나 그게 그게 다 최상의 작업에 대한 테스트 된 모든 시스템의 점수는 비디오 AI에 대한 다음 걸림돌을 발견했을 수 있음을 나타냅니다.

인간 주석기가 평가 한 프레임 워크의 출력과 함께 개방 및 폐쇄 소스 시스템을 선도하는 점수. 출처 : https://arxiv.org/pdf/2503.06800

새로운 작품의 저자는 이제 두 번째 반복으로 벤치마킹 시스템을 개발했습니다. 비디오코드와 함께 Github에서 사용할 수 있습니다.

작품의 범위는 우리가 여기서 포괄적으로 다룰 수있는 것 이상이지만, 방법론과 미래의 모델 훈련 세션의 과정을 이러한 기괴한 역전 사례로부터 멀어지게하는 데 도움이 될 수있는 메트릭을 확립 할 수있는 잠재력을 보자.

그만큼 공부하다UCLA와 Google Research의 6 명의 연구원이 수행 한 것으로 Videophy-2 : 비디오 생성에서 도전적인 액션 중심의 물리적 상식 평가. 붐비는 붐비는 프로젝트 사이트 코드 및 데이터 세트와 함께 사용할 수 있습니다 Github에서및 데이터 세트 뷰어 포옹에.

플레이하려면 클릭하십시오. 여기서, Feted Openai Sora 모델은 노와 반사 사이의 상호 작용을 이해하지 못하며 보트의 사람이나 보트가 그녀와 상호 작용하는 방식에 대해 논리적 물리적 흐름을 제공 할 수 없습니다.

방법

저자는 최신 버전의 작품을 설명하고 Videophy-2‘실제 행동을위한 도전적인 상식 평가 데이터 세트’로서. 이 컬렉션에는 다양한 다양한 신체 활동에 대한 197 개의 행동이 있습니다. 훌라 후프,,, 체조 그리고 테니스그리고와 같은 객체 상호 작용 물체가 부러 질 때까지 구부립니다.

큰 언어 모델 (LLM)은 이러한 종자 동작으로부터 3840 개의 프롬프트를 생성하는 데 사용되며, 프롬프트는 시험중인 다양한 프레임 워크를 통해 비디오를 종합하는 데 사용됩니다.

프로세스 전체에서 저자는 평가를 위해 비전 언어 모델을 사용하여 AI 생성 비디오가 만족 해야하는 ‘후보자’물리적 규칙 및 법률 목록을 개발했습니다.

저자 상태 :

예를 들어, 테니스를 연주하는 스포츠맨의 비디오에서 테니스 공이 중력 아래의 포물선 궤적을 따라야한다는 물리적 규칙입니다. 금 표준 판단의 경우, 우리는 Human Annotators에게 전반적인 시맨틱 준수 및 물리적 상식을 기반으로 각 비디오를 평가하고 다양한 물리적 규칙을 준수하도록 요청합니다. ‘

위 : LLM을 사용한 작업에서 텍스트 프롬프트가 생성되며 텍스트-비디오 생성기가있는 비디오를 만드는 데 사용됩니다. 비전 언어 모델은 비디오를 캡션하여 가능한 물리적 규칙을 식별합니다. 아래 : Human Annotators는 비디오의 현실주의를 평가하고 규칙 위반을 확인하고 규칙이 누락 된 후 비디오가 원래 프롬프트와 일치하는지 확인합니다.

처음에 연구원들은 AI 생성 비디오에서 물리적 상식을 평가하기 위해 일련의 행동을 선별했습니다. 그들은 600 개가 넘는 행동으로 시작했습니다 동력학,,, UCF-101그리고 SSV2 스포츠, 객체 상호 작용 및 실제 물리학과 관련된 활동에 중점을 둔 데이터 세트.

줄기 훈련 된 학생 주석의 두 독립 그룹 (최소 학부 자격을 갖춘)이 목록을 검토하고 필터링하여 다음과 같은 원칙을 테스트하는 조치를 선택했습니다. 중력,,, 기세그리고 탄력다음과 같은 저 모션 작업을 제거하는 동안 타자,,, 고양이를 쓰다듬또는 씹는.

추가 개선 후 Gemini-2.0 -flash-exp 중복을 제거하기 위해 최종 데이터 세트는 197 개의 행동이 포함되었으며, 54 개의 객체 상호 작용과 143 개의 물리적 및 스포츠 활동을 중심으로했습니다.

증류 된 작용의 샘플.

두 번째 단계에서 연구원들은 Gemini-2.0-Flash-EXP를 사용하여 데이터 세트의 각 동작에 대해 20 개의 프롬프트를 생성하여 총 3,940 개의 프롬프트를 생성했습니다. 생성 프로세스는 생성 된 비디오로 명확하게 표현 될 수있는 가시적 인 물리적 상호 작용에 중점을 두었습니다. 이것은 다음과 같은 비 시각 요소를 제외했습니다 감정,,, 감각 세부 사항그리고 추상 언어그러나 다양한 캐릭터와 물체를 통합했습니다.

예를 들어, 간단한 프롬프트 대신 ”궁수는 화살을 풀어줍니다.모델은 ‘궁수는 Bowstring을 완전히 긴장으로 되돌려 놓은 다음 화살을 방출하여 똑바로 날아가서 종이 대상에 불세를칩니다.‘.

최신 비디오 모델은 더 긴 설명을 해석 할 수 있으므로 연구원들은 MISTRAL-NEMO-12B 비축 원래 의미를 변경하지 않고 시각적 세부 사항을 추가하려면 Upsampler를 자랑하십시오.

신체 활동 또는 객체 상호 작용으로 분류 된 Videophy-2의 샘플 프롬프트. 각 프롬프트는 해당 조치 및 관련 물리적 원리가 테스트하는 관련 물리적 원리와 쌍을 이룹니다.

세 번째 단계에서는 물리적 규칙이 텍스트 프롬프트에서 파생되지 않고 생성 된 비디오에서 파생되었습니다. 생성 모델은 조절 된 텍스트 프롬프트를 준수하기 위해 고군분투 할 수 있기 때문입니다.

비디오는 Videophy-2 프롬프트를 사용하여 처음으로 만들어진 다음 gemini-2.0 -flash-exp로 ‘선반’을 사용하여 주요 세부 사항을 추출했습니다. 이 모델은 비디오 당 세 가지 예상 물리적 규칙을 제안했으며, 이는 추가 잠재적 위반을 식별하여 인간 주석기가 검토하고 확장했습니다.

업 샘플링 된 캡션의 예.

다음으로, 가장 어려운 행동을 식별하기 위해 연구원들은 Cogvideox-5b Videophy-2 데이터 세트의 프롬프트와 함께. 그런 다음 197 년 중 60 개의 조치를 선택 하여이 모델이 지속적으로 프롬프트와 기본 물리적 상식을 따르지 못했습니다.

이러한 조치에는 원반 던지기의 운동량 전달, 깨진 때까지 물체를 구부리는 것과 같은 상태 변경, Tightrope Walking과 같은 균형 잡기, 백 플립, 극 볼트, 피자 던지기 등의 복잡한 움직임과 같은 물리가 풍부한 상호 작용이 포함되었습니다. 총 1,200 개의 프롬프트가 하위-다타 세트의 난이도를 높이기 위해 선택되었습니다.

결과 데이터 세트는 3,940 개의 캡션으로 구성되어 있으며 이전 버전의 Videophy보다 5.72 배 더 많습니다. 원래 캡션의 평균 길이는 16 개의 토큰이며, 샘플링 된 캡션은 각각 138 개의 토큰 – 1.88 배, 16.2 배 더 길다.

이 데이터 세트에는 여러 비디오 생성 모델에서 의미 론적 준수, 물리적 상식 및 규칙 위반을 다루는 102,000 개의 인간 주석이 있습니다.

평가

그런 다음 연구원들은 비디오를 평가하기위한 명확한 기준을 정의했습니다. 주요 목표는 각 비디오가 입력 프롬프트와 얼마나 잘 일치하는지 평가하고 기본 물리적 원리를 따르는 것이 었습니다.

그들은 단순히 선호하는 비디오를 순위로운 대신 평가 기반 피드백을 사용하여 특정 성공과 실패를 포착했습니다. Human Annotators는 5 점 척도로 비디오를 득점하여보다 자세한 판단을 허용하는 반면, 평가는 비디오가 다양한 물리적 규칙과 법률을 따르는 지 확인했습니다.

인간 평가를 위해, Amazon Mechanical Turk (AMT)에 대한 시험에서 12 개의 주석기 그룹을 선택하고 상세한 원격 지침을받은 후 등급을 제공했습니다. 공정성을 위해 의미 론적 준수 그리고 물리적 상식 개별적으로 평가되었습니다 (원래 Videophy 연구에서 공동으로 평가되었습니다).

주석기는 먼저 비디오가 입력 프롬프트와 얼마나 잘 일치하는지를 평가 한 다음 5 점 척도에서 물리적 타당성, 규칙 위반 및 전반적인 현실주의를 별도로 평가했습니다. 모델 간의 공정한 비교를 유지하기 위해 원래의 프롬프트 만 보여졌습니다.

인터페이스는 AMT 주석기에 제시되었습니다.

인간의 판단은 금 표준으로 남아 있지만 비싸고 경고 수. 따라서 자동 평가는 더 빠르고 확장 가능한 모델 평가에 필수적입니다.

이 논문의 저자는 Gemini-2.0-Flash-EXP를 포함한 여러 비디오 언어 모델을 테스트했습니다. videoscore시맨틱 정확도와 ‘물리적 상식’을 위해 비디오를 득점 할 수있는 능력.

이 모델은 다시 5 점 척도로 각 비디오를 다시 평가했으며, 별도의 분류 작업은 물리적 규칙을 준수했는지, 위반 또는 불분명한지 여부를 결정했습니다.

실험에 따르면 기존의 비디오 언어 모델은 주로 약한 신체적 추론과 프롬프트의 복잡성으로 인해 인간의 판단에 맞는 데 어려움을 겪었습니다. 자동 평가를 개선하기 위해 연구원들은 개발했습니다 Videophy-2-Autoeval세 가지 범주에서보다 정확한 예측을 제공하도록 설계된 7B 파라미터 모델 : 의미 론적 준수; 물리적 상식; 그리고 규칙 준수미세 조정 Videocon-physics 50,000 인간 주석을 사용하는 모델*.

데이터 및 테스트

이러한 도구를 사용하여 저자는 지역 설치와 필요한 경우 상업용 API를 통해 여러 생성 비디오 시스템을 테스트했습니다. Cogvideox-5B; videocrafter2; hunyuanvideo-13b; 우주-확산; WAN2.1-14B; Openai Sora; 그리고 루마 레이.

Hunyuan Video 및 Videocrafter2가 77-token에서 작동하는 것을 제외하고는 가능한 경우 업 샘플링 된 캡션으로 모델이 프롬프트되었습니다. 클립 제한 사항, 특정 길이 이상의 프롬프트를 허용 할 수 없습니다.

더 짧은 출력을 평가하기가 더 쉽기 때문에 생성 된 비디오는 6 초 미만으로 유지되었습니다.

운전 데이터는 Videophy-2 데이터 세트에서 나 왔으며 벤치 마크 및 교육 세트로 나뉩니다. SORA 및 RAY2를 제외하고는 모델 당 590 개의 비디오가 생성되었습니다. 비용 요인으로 인해 (동등한 수의 비디오가 생성되었습니다).

(추가 평가 세부 정보는 소스 논문을 참조하십시오.

초기 평가는 처리되었습니다 신체 활동/스포츠 (PA) 및 객체 상호 작용 (OI), 일반 데이터 세트와 위에서 언급 한 ‘Harder’서브 세트를 모두 테스트했습니다.

초기 라운드에서 결과.

여기서 저자는 다음과 같습니다.

‘가장 성능이 좋은 모델 인 WAN2.1-14B조차도 데이터 세트의 전체 및 하드 스플릿에서 각각 32.6%와 21.9% 만 달성합니다. 다른 모델에 비해 상대적으로 강력한 성능은 멀티 모달 훈련 데이터의 다양성과 광범위한 작업에 걸쳐 고품질 비디오를 보존하는 강력한 모션 필터링과 함께 일할 수 있습니다.

‘우리는 Ray2와 같은 폐쇄 모델이 WAN2.1-14B 및 Cogvideox-5B와 같은 개방형 모델보다 더 나쁘게 수행한다는 것을 관찰합니다. 이는 폐쇄 모델이 물리적 상식을 캡처 할 때 개방형 모델보다 반드시 우수하지는 않음을 시사합니다.

‘특히 Cosmos-Diviflusion-7b는 하드 스플릿에서 두 번째로 높은 점수를 얻었으며 훨씬 더 큰 Hunyuanvideo-13B 모델을 능가합니다. 이는 합성 렌더링 된 시뮬레이션과 함께 훈련 데이터에서 인간 행동이 높은 표현으로 인한 것일 수 있습니다. ‘

결과는 비디오 모델이 스포츠와 같은 신체 활동으로 더 간단한 물체 상호 작용보다 더 어려움을 겪었다는 것을 보여주었습니다. 이는이 영역에서 AI 생성 비디오를 개선하려면 더 나은 데이터 세트, 특히 테니스, 원반, 야구 및 크리켓과 같은 고품질 스포츠 장면이 필요합니다.

이 연구는 또한 모델의 물리적 타당성이 미학 및 모션 부드러움과 같은 다른 비디오 품질 지표와 상관 관계가 있는지 여부를 조사했습니다. 이 결과는 강력한 상관 관계를 나타내지 않았다. 즉, 모델은 시각적으로 매력적이거나 유동적 인 움직임을 생성함으로써 Videophy-2에서의 성능을 향상시킬 수 없음을 의미한다. 물리적 상식에 대한 더 깊은 이해가 필요하다.

이 논문은 풍부한 질적 사례를 제공하지만 PDF에 제공된 정적 예 중 일부는 저자가 프로젝트 사이트에서 제공하는 광범위한 비디오 기반 예제와 관련이있는 것으로 보입니다. 따라서 우리는 정적 예제의 작은 선택과 실제 프로젝트 비디오를 더 살펴볼 것입니다.

상단 행에는 WAN2.1에서 생성 된 비디오가 표시됩니다. (a) ray2에서, 왼쪽의 제트 스키는 뒤로 움직이기 전에 뒤로 뒤쳐진다. (b) hunyuan-13b에서, 슬레지 해머는 중간 스윙을 변형시키고 부러진 목재 보드가 예기치 않게 나타납니다. (c) Cosmos-7b에서, 창 던지기는 땅과 접촉하기 전에 모래를 추방합니다.

위의 질적 테스트와 관련하여 저자는 다음과 같습니다.

‘[We] Jetskis와 같은 물리적 상식의 위반이 자연스럽게 이동하고 탄력성의 원리를 무시하는 견고한 슬레지 해머의 변형을 관찰하십시오. 그러나 Wan조차도 [the clip embedded at the start of this article].

‘이 경우, 우리는 바위가 구르고 오르막길을 가속화하여 중력의 물리적 법칙을 무시한다는 것을 강조합니다.’

프로젝트 사이트의 추가 예 :

플레이하려면 클릭하십시오. 여기서 캡션은 ‘사람은 젖은 수건을 격렬하게 비틀어 눈에 보이는 아크로 바깥쪽으로 물을 뿌렸다’고-그 결과 물 공급원은 수건보다 훨씬 더 많은 물과 비슷합니다.

플레이하려면 클릭하십시오. 여기서 캡션은 ‘화학자가 비이커에서 투명한 액체를 테스트 튜브에 부어 유출을 조심스럽게 피한다’는 것이었지만, 비커에 첨가되는 물의 부피가 주전자를 빠져 나가는 양과 일치하지 않음을 알 수 있습니다.

처음에 언급했듯이,이 프로젝트와 관련된 자료의 양은 여기에서 다룰 수있는 것을 훨씬 능가합니다. 따라서 저자의 절차에 대한 진정한 철저한 개요와 훨씬 더 많은 테스트 예제 및 절차 세부 사항에 대해서는 앞에서 언급 한 소스 용지, 프로젝트 사이트 및 관련 사이트를 참조하십시오.

* 주석의 출처에 관해서는,이 논문은 ‘이러한 작업을 위해 취득한’만 명시합니다.

2025 년 3 월 13 일 목요일에 처음 출판되었습니다

게시물 AI 비디오가 때때로 뒤로 가져 오는 이유 먼저 나타났습니다 Unite.ai.

Exit mobile version