AI 뉴스허브

생성 비디오 시스템으로는 완성된 영화를 만들 수 없는 이유는 무엇일까?

생성 비디오 시스템으로는 완성된 영화를 만들 수 없는 이유는 무엇일까?

생성 AI 비디오의 출현과 발전으로 인해 많은 일반 관찰자들이 다음과 같이 생각하게 되었습니다. 예측하다 머신 러닝이 우리가 아는 영화 산업의 종말을 가져올 것이라는 전망이 나왔습니다. 대신, 개인 제작자는 로컬 또는 클라우드 기반 GPU 시스템을 이용해 집에서 할리우드 스타일의 블록버스터를 제작할 수 있게 될 것입니다.

이게 가능할까? 가능하다고 해도 가능할까 임박하다많은 사람이 믿는 것처럼?

개인이 결국 우리가 아는 형태로 일관된 캐릭터, 서사적 연속성, 완벽한 사실주의를 갖춘 영화를 만들 수 있게 될 것이라는 것은 매우 가능한 일이고, 어쩌면 필연적일 수도 있다.

그러나 이것이 비디오 시스템에서 발생할 가능성이 없는 몇 가지 근본적인 이유가 있습니다. 잠복 확산 모델.

이 마지막 사실은 현재 해당 범주에 다음이 포함되기 때문에 중요합니다. 모든 Minimax, Kling, Sora, Imagen, Luma, Amazon Video Generator, Runway ML, Kaiber(그리고 우리가 아는 한 Adobe Firefly의)를 포함하여 널리 사용되는 텍스트-비디오(T2) 및 이미지-비디오(I2V) 시스템이 사용 가능합니다. 보류 중 비디오 기능); 중 많은 다른 사람들.

여기서 우리는 진실의 전망을 고려하고 있습니다. 작가 개인이 만든 장편의 인공지능 기반 영화로, 일관된 캐릭터, 촬영 기법, 시각 효과가 최소한 할리우드의 현재 기술 수준과 동등해야 합니다.

이러한 과제에 관련된 가장 큰 실질적인 장애물 몇 가지를 살펴보겠습니다.

1: 정확한 후속 촬영을 할 수 없습니다.

내러티브 불일치는 이러한 장애물 중 가장 큰 것입니다. 사실 현재 사용 가능한 비디오 생성 시스템은 진정으로 정확한 ‘후속’ 샷을 만들 수 없습니다*.

이는 다음과 같은 이유 때문입니다. 노이즈 제거 확산 모델 이러한 시스템의 핵심은 다음에 의존합니다. 무작위 소음그리고 이 핵심 원칙은 정확히 동일한 내용을 두 번 다시 해석하는 것(즉, 다른 각도에서 또는 이전 샷을 이전 샷과 일관성을 유지하는 후속 샷으로 개발하는 것)에 적합하지 않습니다.

텍스트 프롬프트가 단독으로 또는 함께 사용되는 경우 ‘씨앗’ 이미지 업로드됨 (다중 모드 입력) 토큰 프롬프트에서 파생된 것은 훈련된 것에서 의미적으로 적절한 콘텐츠를 이끌어낼 것입니다. 잠복 공간 모델의.

그러나 ‘무작위 노이즈’ 요소로 인해 더욱 방해를 받게 됩니다. 같은 방법으로 두 번은 하지 마세요.

즉, 영상 속 사람들의 신원이 바뀌는 경향이 있으며, 사물과 환경이 처음 촬영한 것과 일치하지 않을 수 있습니다.

뛰어난 영상과 할리우드 수준의 결과물을 보여주는 바이럴 영상이 단일 숏이거나 시스템 기능을 보여주는 ‘쇼케이스 몽타주’인 경향이 있는 이유입니다. 각 숏에는 다른 캐릭터와 환경이 등장합니다.

Marco van Hylckama Vlieg의 생성 AI 몽타주에서 발췌 – 출처: https://www.linkedin.com/posts/marcovhv_thanks-to-generative-ai-we-are-all-filmmakers-activity-7240024800906076160-nEXZ/

이 컬렉션의 의미는 다음과 같습니다. 이를 위해 비디오 세대(상업 시스템의 경우 거짓일 수 있음)는 기본 시스템입니다. ~할 수 있다 연속적이고 일관된 이야기를 만듭니다.

여기서 비유하는 것은 영화 예고편인데, 예고편은 영화의 1~2분 정도만 담았지만, 관객에게 영화 전체가 존재한다고 믿을 만한 이유를 제공합니다.

현재 확산 모델에서 내러티브 일관성을 제공하는 유일한 시스템은 정지 이미지를 생성하는 시스템입니다. 여기에는 NVIDIA의 추기경 회의그리고 과학 문헌의 다양한 프로젝트, 예: 극장, 드림스토리그리고 스토리디퓨전.

최근 모델에서 나온 '정적' 내러티브 연속성의 두 가지 예: 출처: https://research.nvidia.com/labs/par/consistory/ 및 https://arxiv.org/pdf/2405.01434

최근 모델에서 나온 ‘정적’ 내러티브 연속성의 두 가지 예: 출처: https://research.nvidia.com/labs/par/consistory/ 및 https://arxiv.org/pdf/2405.01434

이론상, 이런 시스템의 더 나은 버전(위에 나열된 것 중 어느 것도 일관성이 없음)을 사용하면 일련의 이미지에서 비디오로 전환하는 장면을 만들어낼 수 있으며, 이를 하나의 시퀀스로 연결할 수 있습니다.

현재 최첨단 기술 수준에서 이 접근 방식은 그럴듯한 후속 샷을 생성하지 못하며 어떤 경우든 우리는 이미 다음과 같은 방식에서 벗어났습니다. 작가 복잡성을 한 단계 더 추가하면 꿈이 실현됩니다.

또한, 다음을 사용할 수 있습니다. 낮은 순위 적응 (LoRA) 모델은 특히 캐릭터, 사물 또는 환경에 대해 훈련되어 여러 샷에서 더 나은 일관성을 유지합니다.

그러나 캐릭터가 새로운 의상을 입고 등장하고 싶어한다면, 일반적으로 그 패션을 입은 캐릭터를 구현하는 완전히 새로운 LoRA를 훈련해야 합니다(‘빨간 드레스’와 같은 하위 개념은 적절한 이미지와 함께 개별 LoRA에 훈련할 수 있지만, 항상 작업하기 쉬운 것은 아닙니다).

이러한 방식은 영화의 오프닝 장면에서도 사람이 침대에서 일어나 드레싱 가운을 입고 하품을 한 뒤 침실 창밖을 내다보고 욕실에 가서 양치질을 하는 장면에서조차 상당한 복잡성을 더합니다.

대략 4-8개의 샷으로 구성된 이러한 장면은 기존의 영화 제작 절차를 통해 하루 아침에 촬영할 수 있습니다. 생성 AI의 현재 최첨단 기술 수준에서는 잠재적으로 몇 주에 걸친 작업, 훈련된 여러 LoRA(또는 기타 보조 시스템) 및 상당한 양의 후처리가 필요합니다.

또는 비디오-비디오를 사용할 수 있는데, 여기서는 일상적인 영상이나 CGI 영상을 텍스트 프롬프트를 통해 대체 해석으로 변환합니다. 활주로 제공하다 예를 들어 그런 시스템.

Blender의 CGI(왼쪽)는 Mathieu Visnjevec의 텍스트 지원 Runway 비디오-비디오 실험에서 해석됨 – 출처: https://www.linkedin.com/feed/update/urn:li:activity:7240525965309726721/

여기에는 두 가지 문제가 있습니다. 이미 핵심 영상을 만들어야 하므로 이미 영화를 만들고 있습니다. 두 배UnReal과 같은 합성 시스템을 사용하더라도 메타휴먼.

위의 클립처럼 CGI 모델을 만들어 비디오에서 이미지로 변환하는 데 사용하면 샷 전체의 일관성을 보장할 수 없습니다.

이는 비디오 확산 모델이 ‘전체적인 그림’을 보지 못하고 이전 프레임을 기반으로 새 프레임을 생성하기 때문입니다. 일부 사례가까운 미래의 프레임을 고려해 보자. 그러나 이 과정을 체스 게임에 비유하자면, 그들은 ‘열 수 앞서’ 생각할 수 없고, 열 수 뒤를 기억할 수 없다.

두 번째로, 이 섹션의 시작 부분에서 언급한 이유로 캐릭터, 환경 및 조명 스타일을 위해 여러 LoRA를 포함하더라도 확산 모델은 샷 전체에서 일관된 모습을 유지하는 데 어려움을 겪습니다.

2: 샷을 쉽게 편집할 수 없습니다

구식 CGI 방법을 사용하여 거리를 걷는 캐릭터를 묘사한 후, 장면의 일부 측면을 변경하고 싶다면 모델을 조정하여 다시 렌더링할 수 있습니다.

실제로 촬영하는 경우 적절한 변경 사항을 적용하여 재설정하고 다시 촬영하면 됩니다.

하지만 마음에 드는 AI 비디오 샷을 제작했지만 변경하고 싶은 경우 한 측면 이것의 대부분은 지난 30~40년 동안 개발된 힘든 후반 제작 방법을 통해서만 달성할 수 있습니다. 즉, CGI, 로토스코핑, 모델링 및 매팅은 모두 노동 집약적이고 비용이 많이 듭니다. 시간이 많이 걸리는 절차.

확산 모델이 작동하는 방식은 텍스트 프롬프트의 한 측면을 변경하는 것(전체 소스 시드 이미지를 제공하는 다중 모드 프롬프트에서도)이 변경됩니다. 다양한 측면 생성된 출력의 결과로 ‘두더지 잡기’ 게임이 진행됩니다.

3: 물리 법칙에 의지할 수 없다

기존의 CGI 방식은 유체 역학, 기체 운동, 역 운동학(인간의 움직임을 정확하게 모델링하는 것), 옷감 역학, 폭발 및 기타 다양한 현실 세계 현상을 시뮬레이션할 수 있는 다양한 알고리즘 기반 물리 모델을 제공합니다.

그러나 우리가 살펴본 바와 같이 확산 기반 방법은 메모리가 짧고 범위도 제한적입니다. 모션 사전 (이러한 작업의 예는 훈련 데이터 세트에 포함되어 있음)을 활용하여 작업합니다.

에서 이전 버전 OpenAI의 호평을 받은 Sora 생성 시스템을 위한 랜딩 페이지에서 회사는 Sora가 이와 관련하여 한계가 있다는 것을 인정했습니다(하지만 이 텍스트는 이후 삭제되었습니다):

‘[Sora] 복잡한 장면의 물리 법칙을 시뮬레이션하는 데 어려움을 겪을 수 있으며, 원인과 결과의 구체적인 사례를 이해하지 못할 수도 있습니다(예: 캐릭터가 쿠키를 물어뜯은 후에 쿠키에 표시가 나타나지 않을 수 있음).

‘또한 이 모델은 프롬프트에 포함된 공간적 세부 사항(예: 좌우를 구분하는 것)을 혼동하거나 특정 카메라 궤적과 같이 시간이 지남에 따라 전개되는 이벤트를 정확하게 설명하는 데 어려움을 겪을 수도 있습니다.’

다양한 API 기반 생성 비디오 시스템의 실제 사용은 정확한 물리학을 묘사하는 데 있어서 유사한 한계를 보여줍니다. 그러나 폭발과 같은 특정 일반적인 물리적 현상은 훈련 데이터 세트에서 더 잘 표현되는 것으로 보입니다.

생성 모델로 학습되거나 소스 비디오에서 입력된 일부 모션 사전 임베딩은 완료하는 데 시간이 걸립니다(예: 정교한 의상을 입고 복잡하고 반복되지 않는 댄스 시퀀스를 수행하는 사람). 그리고 다시 한 번, 확산 모델의 근시안적 주의 창은 모션이 재생될 때까지 콘텐츠(얼굴 ID, 의상 세부 정보 등)를 변환할 가능성이 높습니다. 그러나 LoRA는 어느 정도 이를 완화할 수 있습니다.

포스트에서 수정하기

순수한 ‘단일 사용자’ AI 비디오 생성에는 다음과 같은 다른 단점이 있습니다. 어려움 그들은 빠른 움직임을 묘사하는 데 있어서 일반적이고 훨씬 더 시급한 문제를 가지고 있습니다. 시간적 일관성을 얻다 출력 비디오에서.

또한, 생성적 비디오에서 특정한 얼굴 표정을 만드는 것은 대화의 립싱크와 마찬가지로 운에 달려 있습니다.

두 경우 모두 다음과 같은 보조 시스템을 사용합니다. 라이브포트레이트 그리고 애니메이션 차이 VFX 커뮤니티에서 엄청난 인기를 얻고 있는데, 이를 통해 기존에 생성된 출력에 적어도 일반적인 얼굴 표정과 립싱크를 전치할 수 있기 때문입니다.

LivePortrait를 사용하여 대상 비디오에 표현 전달(왼쪽 아래에 주행 비디오)을 적용하는 예입니다. 이 비디오는 Generative Z TunisiaGenerative에서 가져왔습니다. https://www.linkedin.com/posts/genz-tunisia_digitalcreation-liveportrait-aianimation-activity-7240776811737972736-uxiB/에서 더 나은 화질로 전체 길이의 버전을 보세요.

또한 Stable Diffusion GUI와 같은 도구를 통합한 다양한 복잡한 솔루션 ComfyUI 그리고 전문적인 합성 및 조작 응용 프로그램 잠재적 공간 조작을 통해 AI VFX 실무자는 얼굴 표정과 기질을 더욱 효과적으로 제어할 수 있습니다.

비록 그가 설명하다 ComfyUI에서 얼굴 애니메이션 프로세스를 ‘고문’으로 간주하는 VFX 전문가 Francisco Contreras는 입술 음소와 얼굴/머리 묘사의 다른 측면을 부과할 수 있는 이러한 절차를 개발했습니다.

Nuke 기반 ComfyUI 워크플로우의 도움을 받은 Stable Diffusion을 통해 VFX 전문가 Francisco Contreras가 얼굴 측면에 대한 특이한 통제력을 얻으세요. 더 나은 해상도의 전체 비디오를 보려면 https://www.linkedin.com/feed/update/urn:li:activity:7243056650012495872/로 이동하세요.

결론

이 중 어느 것도 단일 사용자가 현실적인 대화, 립싱크, 연기, 환경 및 연속성을 갖춘 일관되고 사실적인 블록버스터 스타일의 장편 영화를 제작한다는 전망에는 전혀 유망하지 않습니다.

게다가, 여기서 설명한 장애물은 적어도 확산 기반 생성 비디오 모델과 관련하여 포럼 코멘트와 이 사례를 뒷받침하는 미디어의 관심에도 불구하고 지금 당장 ‘언제든지’ 해결할 수 있는 것은 아닙니다. 설명된 제약은 아키텍처에 내재되어 있는 것으로 보입니다.

모든 과학 연구와 마찬가지로 AI 합성 연구에서도 뛰어난 아이디어가 주기적으로 그 잠재력으로 우리를 놀라게 하지만, 추가 연구를 통해 그 아이디어의 근본적인 한계가 드러나게 됩니다.

생성/합성 공간에서 이는 이미 생성적 적대 네트워크(Generative Adversarial Networks)를 통해 발생했습니다.GANs) 및 신경 광도장(네르프), 둘 다 궁극적으로 성능이 뛰어난 상용 시스템으로 도구화하는 것이 매우 어렵다는 것이 증명되었습니다. 그 목표를 향한 수년간의 학술 연구에도 불구하고 말입니다. 이러한 기술은 이제 대체 아키텍처에서 보조 구성 요소로 가장 자주 나타납니다.

영화 스튜디오에서는 합법적으로 허가받은 영화 카탈로그에 대한 교육이 가능하다고 기대할 수 있습니다. VFX 아티스트를 제거하다AI는 실제로 첨가 현재 인력에 대한 역할.

확산 기반 비디오 시스템이 정말로 내러티브적으로 일관성 있고 사실적인 영화 생성기로 전환될 수 있는지, 아니면 이 사업 전체가 그저 또 다른 연금술적 추구에 불과한지는 앞으로 12개월 안에 분명해질 것입니다.

우리에게 완전히 새로운 접근 방식이 필요할 수도 있습니다. 또는 가우시안 스플래팅 (GSplat)는 i에서 개발되었습니다.1990년대 초반 그리고 최근에 이륙하다 영상 합성 공간에서 확산 기반 비디오 생성에 대한 잠재적인 대안을 나타냅니다.

GSplat이 등장하기까지 34년이 걸렸기 때문에 NeRF와 GAN, 심지어 잠재 확산 모델과 같은 오래된 경쟁자들이 아직은 각광받지 못할 수도 있습니다.

* 그렇지만 카이버의 AI 스토리보드 기능 이런 종류의 기능을 제공하고 내가 본 결과는 다음과 같습니다. 생산 품질이 아닙니다.

Martin Anderson은 metaphysic.ai의 전 과학 연구 콘텐츠 책임자입니다.
2024년 9월 23일 월요일 첫 게시

게시물 생성 비디오 시스템으로는 완성된 영화를 만들 수 없는 이유는 무엇일까? 처음 등장 유나이트.AI.

Exit mobile version