AI 비디오 생성의 전체 제어를 향해

Date:

Chatgpt-4o, Adobe Firefly : 오른쪽 하단, 종이 풀 디트의 이미지 : 완전히주의를 기울이는 멀티 태스킹 비디오 생성 기초 모델 (https://arxiv.org/pdf/2503.19907)

와 같은 비디오 기초 모델 후유아 그리고 WAN 2.1강력하지만 영화 및 TV 제작 (특히 VFX 제작)이 요구하는 세분화 된 제어의 종류를 사용자에게 제공하지 마십시오.

전문 시각 효과 스튜디오에서는 이와 같은 오픈 소스 모델과 다음과 같은 이전 이미지 기반 (비디오가 아닌) 모델과 함께 안정적인 확산,,, 칸딘스키 그리고 유량일반적으로 특정 창의적 요구를 충족시키기 위해 원시 출력을 조정하는 다양한 지원 도구와 함께 사용됩니다. 감독이 말하면 “멋져 보이지만 조금 더 만들 수 있습니까? [n]?” 모델이 그러한 요청을 처리하기에 충분히 정확하지 않다고 말함으로써 응답 할 수 없습니다.

대신 AI VFX 팀은 다양한 전통적인 것을 사용합니다. CGI 그리고 비디오 합성의 한계를 조금 더 밀기 위해 시간이 지남에 따라 개발 된 맞춤 절차 및 워크 플로와 관련된 조성 기술.

유사하게, 기초 비디오 모델은 Chrome과 같은 웹 브라우저의 기본 설치와 매우 유사합니다. 그것은 상자 밖으로 많은 일을하지만, 그 반대가 아니라 필요에 적응하려면 플러그인이 필요합니다.

컨트롤 괴물

확산 기반 이미지 합성의 세계에서 가장 중요한 타사 시스템은 다음과 같습니다. Controlnet.

Controlnet은 확산 기반 생성 모델에 구조화 된 제어를 추가하는 기술로, 사용자는 다음과 같은 추가 입력으로 이미지 또는 비디오 생성을 안내 할 수 있습니다. 에지지도,,, 깊이지도또는 정보를 포장하십시오.

Controlnet의 다양한 방법은 깊이> 이미지 (상단 행), 시맨틱 세분화> 이미지 (왼쪽 하단) 및 인간과 동물의 포즈 유도 이미지 생성 (왼쪽 아래)을 허용합니다.” width=”779″ height=”422″ srcset=”https://www.unite.ai/wp-content/uploads/2025/03/ControlNet-examples.jpg 1159w, https://www.unite.ai/wp-content/uploads/2025/03/ControlNet-examples-300×163.jpg 300w, https://www.unite.ai/wp-content/uploads/2025/03/ControlNet-examples-250×135.jpg 250w, https://www.unite.ai/wp-content/uploads/2025/03/ControlNet-examples-768×416.jpg 768w” sizes=”auto, (max-width: 779px) 100vw, 779px”></p><p class=Controlnet의 다양한 방법은 깊이> 이미지 (상단 행), 시맨틱 세분화> 이미지 (왼쪽 하단) 및 인간과 동물의 포즈 유도 이미지 생성 (왼쪽 아래)을 허용합니다.

Controlnet은 텍스트 프롬프트에만 의존하는 대신 별도의 신경망 브랜치를 소개하거나 어댑터이 조절 신호를 처리하면서 기본 모델의 생성 기능을 유지합니다.

이를 통해 사용자 사양에 더 가깝게 부착되는 미세 조정 출력이 가능하므로 정확한 구성, 구조 또는 모션 제어가 필요한 응용 분야에서 특히 유용합니다.

안내 자세를 사용하면 Controlnet을 통해 다양한 정확한 출력 유형을 얻을 수 있습니다. 출처 : https://arxiv.org/pdf/2302.05543

안내 자세를 사용하면 Controlnet을 통해 다양한 정확한 출력 유형을 얻을 수 있습니다. 출처 : https://arxiv.org/pdf/2302.05543

그러나 이러한 종류의 어댑터 기반 프레임 워크는 매우 내부적으로 초점을 맞춘 일련의 신경 과정에서 외부에서 작동합니다. 이러한 접근법에는 몇 가지 단점이 있습니다.

첫째, 어댑터는 독립적으로 훈련되어 이어집니다 지점 충돌 다중 어댑터가 결합 될 때, 이는 열화 된 생성 품질을 수반 할 수 있습니다.

둘째, 그들은 소개합니다 매개 변수 중복성각 어댑터에 추가 계산과 메모리가 필요하므로 스케일링이 비효율적입니다.

셋째, 유연성에도 불구하고 어댑터는 종종 생산합니다 차선책 결과 완전한 모델과 비교합니다 미세 조정 다중 조건 생성을 위해. 이러한 문제는 다중 제어 신호를 원활하게 통합 해야하는 작업에 어댑터 기반 방법이 덜 효과적입니다.

이상적으로는 Controlnet의 용량이 훈련됩니다 기본적으로 모델로, 동시 비디오/오디오 생성 또는 네이티브 립스 동기 기능 (외부 오디오)과 같은 나중에 기대되는 명백한 혁신을 수용 할 수있는 모듈 식 방식으로.

모든 추가 기능은 후반 작업 또는 비 네이티브 절차를 나타냅니다.

풀 디트

이 스탠드 오프에는 중국의 새로운 오퍼링이 제공되며, 이는 컨트롤 넷 스타일 측정 값이 나중의 사후에 강등되는 대신 훈련 시간에 생성 비디오 모델로 직접 구워지는 시스템을 제시합니다.

새로운 논문에서 : FullDit 접근법은 정체성 부과, 깊이 및 카메라 움직임을 네이티브 세대로 통합 할 수 있으며, 이들의 조합을 한 번에 소환 할 수 있습니다. 출처 : https://arxiv.org/pdf/2503.19907

새로운 논문에서 : FullDit 접근법은 신원 부과, 깊이 및 카메라 움직임을 네이티브 세대로 통합 할 수 있으며, 이들의 조합을 한 번에 소환 할 수 있습니다.. 출처 : https://arxiv.org/pdf/2503.19907

제목 풀 디트새로운 접근법은 신분 전송, 깊이 매핑 및 카메라 움직임과 같은 다중 태스크 조건을 훈련 된 생성 비디오 모델의 통합 부분으로 융합시켜 저자가 프로토 타입 숙련 된 모델을 생성하고 프로젝트 사이트.

아래의 예에서는 카메라 이동, ID 정보 및 텍스트 정보를 포함하는 세대 (예 : 사용자 텍스트 프롬프트)를 볼 수 있습니다.

플레이하려면 클릭하십시오. 기본 훈련 된 기초 모델만으로 Controlnet 스타일 사용자 부과의 예. 출처 : https://fulldit.github.io/

저자는 실험 훈련 된 모델을 기능적 기초 모델로 제안하지 않고 오히려 이미지 프롬프트 또는 텍스트 홍보보다 사용자에게 더 많은 제어를 제공하는 기본 텍스트-비디오 (T2V) 및 I2V (Image-to-Video) 모델에 대한 개념 증명으로 제안합니다.

이런 종류의 비슷한 모델이 없기 때문에 연구원들은 새로운 벤치 마크를 만들었습니다. 풀 벤치멀티 태스킹 비디오의 평가를 위해, 이전 접근 방식에 대해 고안된 비슷한 테스트에서 최첨단 성능을 주장합니다. 그러나 Fullbench는 저자 자체에 의해 설계되었으므로 그 객관성은 테스트되지 않았으며 1,400 건의 데이터 세트가 더 광범위한 결론을 위해 너무 제한적일 수 있습니다.

아마도 논문이 제시 한 건축의 가장 흥미로운 측면은 새로운 유형의 제어를 통합 할 수있는 잠재력 일 것입니다. 저자 상태 :

‘이 작업에서는 카메라, 신원 및 깊이 정보의 제어 조건 만 탐색합니다. 우리는 오디오, 스피치, 포인트 클라우드, 객체 경계 박스, 광학 흐름 등과 같은 다른 조건과 양식을 더 조사하지 않았지만, 풀 디트의 설계는 기존 모델을 최소한의 아키텍처 수정과 원활하게 통합 할 수 있지만 기존 모델을 새로운 조건에 빠르고 비용을 효과적으로 조정하는 방법은 여전히 ​​추가로 탐색하는 중요한 의문입니다. ‘

연구원들은 Fulldit을 멀티 태스킹 비디오 생성의 한 걸음 앞으로 나아가고 있지만,이 새로운 작업은 기본적으로 새로운 패러다임을 도입하기보다는 기존 아키텍처를 기반으로하는 것으로 간주되어야합니다.

그럼에도 불구하고 FullDit은 현재 ‘하드 코드’컨트롤 네트 스타일 시설을 갖춘 비디오 기초 모델로서 (내 아는 최선을 다하고 있음), 제안 된 아키텍처가 나중에 혁신을 수용 할 수 있음을 알게되어 기쁩니다.

플레이하려면 클릭하십시오. 프로젝트 사이트에서 사용자 제어 카메라의 예.

그만큼 새로운 종이 제목이 있습니다 Fulldit : 완전한주의를 기울인 멀티 태스킹 비디오 생성 기초 모델Kuaishou Technology와 중국 홍콩 대학교 전역의 9 명의 연구원에서 나왔습니다. 프로젝트 페이지는입니다 여기 그리고 새로운 벤치 마크 데이터는 다음과 같습니다 포옹에.

방법

저자는 Fulldit의 통합주의 메커니즘이 조건에서 공간적 및 시간적 관계를 모두 포착하여 더 강력한 교차 모달 표현 학습을 가능하게한다고 주장합니다.

새로운 논문에 따르면, FullDit은 완전한 자체 변환을 통해 여러 입력 조건을 통합하여 통합 시퀀스로 변환합니다. 대조적으로, 어댑터 기반 모델 (왼쪽)은 각 입력에 대해 별도의 모듈을 사용하여 중복성, 충돌 및 성능이 약해집니다.

새로운 논문에 따르면, FullDit은 완전한 자체 변환을 통해 여러 입력 조건을 통합하여 통합 시퀀스로 변환합니다. 대조적으로, 어댑터 기반 모델 (위의 가장 왼쪽)은 각 입력에 대해 별도의 모듈을 사용하여 중복성, 충돌 및 성능 약화로 이어집니다.

각 입력 스트림을 개별적으로 처리하는 어댑터 기반 설정과 달리이 공유주의 구조는 분기 충돌을 피하고 매개 변수 오버 헤드를 줄입니다. 또한 아키텍처는 주요 재 설계없이 새로운 입력 유형으로 확장 할 수 있으며 모델 스키마는 카메라 모션을 캐릭터 아이덴티티와 연결하는 것과 같이 훈련 중에는 보이지 않는 조합을 일반화하는 징후를 보여줍니다.

플레이하려면 클릭하십시오. 프로젝트 사이트에서 신원 생성의 예.

Fulldit의 아키텍처에서 텍스트, 카메라 모션, 아이덴티티 및 깊이와 같은 모든 컨디셔닝 입력은 먼저 통합 토큰 형식으로 변환됩니다. 이 토큰은 단일 긴 시퀀스로 연결되며, 이는 스택을 통해 처리됩니다. 변신 로봇 완전한 자체 변환을 사용하는 레이어. 이 접근법은 다음과 같은 이전의 작품을 따릅니다 오픈-소라 계획 그리고 영화 Gen.

이 설계를 통해 모델은 모든 조건에서 시간적 및 공간 관계를 공동으로 배울 수 있습니다. 각 변압기 블록은 전체 시퀀스에 걸쳐 작동하여 각 입력에 대해 별도의 모듈에 의존하지 않고도 양식 간의 동적 상호 작용을 가능하게합니다. 우리가 언급 한 바와 같이, 아키텍처는 확장 가능하도록 설계되어 향후 주요 구조적 변화없이 추가 제어 신호를 훨씬 쉽게 통합 할 수있게합니다.

세 가지 힘

Fulldit은 각 제어 신호를 표준화 된 토큰 형식으로 변환하여 모든 조건을 통합주의 프레임 워크로 함께 처리 할 수 ​​있도록합니다. 카메라 모션의 경우 모델은 각 프레임에 대해 위치 및 방향과 같은 일련의 외적 매개 변수를 인코딩합니다. 이들 파라미터는 신호의 시간적 특성을 반영하는 임베딩 벡터로 타임 스탬프되고 투사된다.

신원 정보는 시간이 아니라 본질적으로 공간적이기 때문에 다르게 취급됩니다. 이 모델은 각 프레임의 어떤 부분에 어떤 문자가 있는지를 나타내는 ID 맵을 사용합니다. 이지도는로 나뉩니다 패치각 패치가 an에 투사되었습니다 임베딩 이를 통해 공간 정체성 신호를 캡처하여 모델이 프레임의 특정 영역을 특정 엔티티와 연결할 수 있습니다.

깊이는 시공간 신호이며 모델은 깊이 비디오를 공간과 시간에 걸쳐 3D 패치로 나누어 처리합니다. 이 패치는 프레임에 걸쳐 구조를 보존하는 방식으로 내장됩니다.

일단 내장되면이 모든 조건 토큰 (카메라, 아이덴티티 및 깊이)이 단일 긴 시퀀스로 연결되어 FullDit이 Full을 사용하여 함께 처리 할 수 ​​있습니다. 자기 참여. 이 공유 표현은 모델이 고립 된 처리 스트림에 의존하지 않고 양식과 시간에 걸쳐 상호 작용을 학습 할 수있게합니다.

데이터 및 테스트

Fulldit의 교육 접근법은 모든 조건이 동시에 존재하도록 요구하지 않고 각 컨디셔닝 유형에 맞게 선택적으로 주석이 달린 데이터 세트에 의존했습니다.

텍스트 조건의 경우, 이니셔티브는 구조화 된 캡션 approac을 따릅니다. h에 개요 미라 다다 프로젝트.

Miradata 프로젝트의 비디오 수집 및 주석 파이프 라인. 출처 : https://arxiv.org/pdf/2407.06358

Miradata 프로젝트의 비디오 수집 및 주석 파이프 라인. 출처 : https://arxiv.org/pdf/2407.06358

카메라 모션의 경우 Realestate10K 데이터 세트는 카메라 매개 변수의 고품질 지상 진실 주석으로 인해 주요 데이터 소스였습니다.

그러나 저자는 Realestate10K와 같은 정적 장면 카메라 데이터 세트에 대한 독점적으로 훈련이 생성 된 비디오에서 역동적 인 물체와 인간 움직임을 줄이는 경향이 있음을 관찰했습니다. 이에 대응하기 위해 더 동적 카메라 모션이 포함 된 내부 데이터 세트를 사용하여 추가 미세 조정을 수행했습니다.

신원 주석은 개념 마스터 미세한 신원 정보의 효율적인 필터링 및 추출을 허용 한 프로젝트.

Conceptmaster 프레임 워크는 정의 된 비디오에서 개념 충실도를 보존하면서 정체성 분리 문제를 해결하도록 설계되었습니다. 출처 : https://arxiv.org/pdf/2501.04698

Conceptmaster 프레임 워크는 정의 된 비디오에서 개념 충실도를 보존하면서 정체성 분리 문제를 해결하도록 설계되었습니다. 출처 : https://arxiv.org/pdf/2501.04698

깊이 주석은 팬더 -70m 데이터 세트 사용 깊이있는 것.

데이터 주문을 통한 최적화

저자는 또한 점진적인 훈련 일정을 구현하여 더 어려운 조건을 소개했습니다. 초기 훈련 더 간단한 작업이 추가되기 전에 모델이 강력한 표현을 획득하도록합니다. 훈련 명령이 진행되었습니다 텍스트 에게 카메라 그러면 조건 신원그리고 마지막으로 깊이더 쉬운 작업이 일반적으로 나중에 소개되고 예제가 적습니다.

저자는 이런 방식으로 워크로드를 주문하는 가치를 강조합니다.

‘사전 훈련 단계에서, 우리는 더 어려운 작업이 연장 된 교육 시간을 요구하고 학습 과정에서 일찍 도입되어야한다고 언급했습니다. 이러한 도전적인 작업에는 출력 비디오와 크게 다른 복잡한 데이터 분포가 포함되므로 모델이 정확하게 캡처하고 표현할 수있는 충분한 용량을 갖아야합니다.

반대로, 더 쉬운 작업을 너무 일찍 도입하면 모델이보다 먼저 최적화 피드백을 제공하므로보다 도전적인 작업의 수렴을 방해하기 때문에 모델이 먼저 학습을 우선시 할 수 있습니다. ‘

연구원이 채택한 데이터 교육 순서의 예시, 빨간색은 더 큰 데이터 볼륨을 나타냅니다.

연구원이 채택한 데이터 교육 순서의 예시, 빨간색은 더 큰 데이터 볼륨을 나타냅니다.

초기 사전 훈련 후, 최종 미세 조정 단계는 시각적 품질 및 모션 역학을 향상시키기 위해 모델을 추가로 개선했습니다. 그 후 훈련은 표준 확산 프레임 워크*: 비디오 잠재심에 추가 된 노이즈 및 모델에 따른 훈련을 따랐습니다. 그것을 예측하고 제거하는 법을 배웁니다내장 조건 토큰을 안내로 사용합니다.

Fulldit을 효과적으로 평가하고 기존 방법과 공정한 비교를 제공하기 위해 다른 Apposite 벤치 마크의 가용성이 없으면 저자는 소개했습니다. 풀 벤치1,400 개의 별개의 테스트 케이스로 구성된 선별 된 벤치 마크 제품군.

새로운 풀 벤치 벤치 마크의 데이터 탐색기 인스턴스. 출처 : https://huggingface.co/datasets/kwaivgi/fullbench

새로운 풀 벤치 벤치 마크의 데이터 탐색기 인스턴스. 출처 : https://huggingface.co/datasets/kwaivgi/fullbench

각 데이터 포인트는 카메라 모션,,, 신원그리고 깊이.

메트릭

저자는 성능의 5 가지 주요 측면을 다루는 10 가지 메트릭을 사용하여 Fulldit을 평가했습니다. 텍스트 정렬, 카메라 제어, 아이덴티티 유사성, 깊이 정확도 및 일반 비디오 품질.

텍스트 정렬을 사용하여 측정되었습니다 클립 유사성카메라 제어가 평가되는 동안 회전 오류 (로테르),) 번역 오류 (트랜스 err), 그리고 카메라 모션 일관성 (CAMMC), 접근에 따른 (CAMMC) CAMI2V (에서 카메라 크트 링 프로젝트).

동일성 유사성을 사용하여 평가되었습니다 Dino-I 그리고 클립 -I깊이 제어 정확도를 사용하여 정량화 하였다 평균 절대 오류 (Mae).

비디오 품질은 Miradata의 세 가지 측정 항목으로 판단되었습니다 : 스무드를위한 프레임 레벨 클립 유사성; 역학을위한 광학 흐름 기반 모션 거리; 그리고 Laion-eesthetic 점수 시각적 호소를 위해.

훈련

저자는 약 10 억 개의 매개 변수를 포함하는 내부 (공개되지 않은) 텍스트-비디오 확산 모델을 사용하여 FullDit을 훈련 시켰습니다. 그들은 의도적으로 이전 방법과 비교하여 공정성을 유지하고 재현성을 보장하기 위해 적절한 매개 변수 크기를 선택했습니다.

훈련 비디오는 길이와 해상도가 다르기 때문에 저자는 각각 표준화했습니다. 일괄 비디오를 공통 해상도로 크기를 조정하고 패딩하여 시퀀스 당 77 프레임을 샘플링하고 적용된주의를 사용하여 손실 마스크 교육 효과를 최적화합니다.

그만큼 아담 Optimizer는 a에서 사용되었습니다 학습 속도 1 × 10-5 총 5,120GB의 VRAM을 위해 64 NVIDIA H800 GPU의 클러스터를 가로 질러 (애호가 합성 커뮤니티에서 고려하십시오. 24GB RTX 3090은 여전히 ​​고급스러운 표준으로 간주됩니다).

이 모델은 약 32,000 단계로 교육을 받았으며 비디오 당 최대 3 개의 신원을 통합하고 20 개의 카메라 조건 프레임과 21 프레임의 깊이 조건을 통합하여 총 77 프레임에서 균등하게 샘플링했습니다.

추론을 위해, 모델은 50 개의 확산 추론 단계와 분류기가없는 안내 척도가 5 개의 384 × 672 픽셀 (초당 15 프레임에서 약 5 초)의 해상도로 비디오를 생성했습니다.

사전 방법

카메라 간 비디오 평가를 위해 저자는 Fulldit과 비교했습니다 MotionCtrlCameractrl 및 CAMI2V는 모든 모델이 Realestate10K 데이터 세트를 사용하여 일관성과 공정성을 보장합니다.

Identity-Conditioned Generation에서는 비슷한 오픈 소스 다 식별 모델을 사용할 수 없었기 때문에이 모델은 동일한 교육 데이터 및 아키텍처를 사용하여 1B-Parameter Conceptmaster 모델에 대해 벤치마킹되었습니다.

심도-비디오 작업의 경우 비교가 이루어졌습니다 Ctrl-Adapter 그리고 ControlVideo.

단일 작업 비디오 생성에 대한 정량적 결과. Fulldit은 카메라-비디오 생성을 위해 MotionCtrl, Cameractrl 및 Cami2V와 비교되었습니다. Identity-to-Video 용 Conceptmaster (1B 매개 변수 버전); 심도-비디오를위한 Ctrl-Adapter 및 ControlVideo. 모든 모델은 기본 설정을 사용하여 평가되었습니다. 일관성을 위해, 16 프레임은 각 방법으로부터 균일하게 샘플링하여 이전 모델의 출력 길이와 일치했습니다.

단일 작업 비디오 생성에 대한 정량적 결과. Fulldit은 카메라-비디오 생성을 위해 MotionCtrl, Cameractrl 및 Cami2V와 비교되었습니다. Identity-to-Video 용 Conceptmaster (1B 매개 변수 버전); 심도-비디오를위한 Ctrl-Adapter 및 ControlVideo. 모든 모델은 기본 설정을 사용하여 평가되었습니다. 일관성을 위해, 16 프레임은 각 방법으로부터 균일하게 샘플링하여 이전 모델의 출력 길이와 일치했습니다.

결과는 여러 컨디셔닝 신호를 동시에 처리하더라도 Fulldit은 텍스트, 카메라 모션, 아이덴티티 및 깊이 제어와 관련된 메트릭에서 최첨단 성능을 달성했음을 나타냅니다.

전반적인 품질 측정 항목에서 시스템은 일반적으로 다른 방법보다 성능이 뛰어 났지만, 부드러움은 Conceptmaster보다 약간 낮았습니다. 여기서 저자는 다음과 같습니다.

‘부드러움의 계산은 인접한 프레임 사이의 클립 유사성을 기반으로하기 때문에 Fulldit의 평활성은 ConceptMaster의 평활성보다 약간 낮습니다. Fulldit은 Conceptmaster와 비교하여 상당히 큰 역학을 나타내므로 Smoothness Metric은 인접한 프레임 사이의 큰 변화에 영향을받습니다.

‘미적 점수의 경우 등급 모델은 그림 스타일로 이미지를 선호하고 ControlVideo는 일반적 으로이 스타일로 비디오를 생성하므로 미학에서 높은 점수를 얻습니다.’

질적 비교와 관련하여, PDF 예제는 필연적으로 정적이며 (여기에서 완전히 재현하기에는 너무 크기 때문에) Fulldit 프로젝트 사이트에서 샘플 비디오를 참조하는 것이 바람직 할 수 있습니다.

재현 된 질적 성분의 첫 번째 섹션은 PDF를 초래합니다. 추가 예제에 대해서는 소스 용지를 참조하십시오. 여기에서 재현하기에는 너무 광범위합니다.

정 성적의 첫 번째 섹션은 PDF를 초래합니다. 추가 예제에 대해서는 소스 용지를 참조하십시오. 여기에서 재현하기에는 너무 광범위합니다.

저자는 다음과 같습니다.

‘풀 디트 [ConceptMaster]. Conceptmaster와 Fulldit은 동일한 백본으로 훈련되었으므로 조건 주입의 효과가 완전히주의를 기울입니다.

‘…그만큼 [other] 결과는 기존 심도-비디오 및 카메라-비디오 방법에 비해 풀 딘의 우수한 제어 성과 생성 품질을 보여줍니다. ‘

PDF의 여러 신호를 가진 Fulldit의 출력 예제의 섹션. 추가 예제는 소스 용지 및 프로젝트 사이트를 참조하십시오.

PDF의 여러 신호를 가진 Fulldit의 출력 예제의 섹션. 추가 예제는 소스 용지 및 프로젝트 사이트를 참조하십시오.

결론

Fulldit은보다 완전한 기능을 갖춘 비디오 기초 모델에 대한 흥미 진진한 분위기이지만, Controlnet 스타일의 도구에 대한 수요가 적어도 FOSS 프로젝트의 경우 규모로 이러한 기능을 구현하는 것을 정당화 할 것인지 궁금해해야합니다.

주요 과제는 깊이 및 포즈와 같은 시스템을 사용하려면 일반적으로 Comfyui와 같은 비교적 복잡한 사용자 인터페이스에 대한 사소한 친숙 함이 필요하다는 것입니다. 따라서 이런 종류의 기능적 FOS 모델은 돈이 부족한 소규모 VFX 회사의 간부들에 의해 개발 될 가능성이 높습니다 (또는 그러한 시스템이 모델 업그레이드로 빠르게 사용되지 않는다는 점을 감안할 때) 그러한 모델을 닫은 문 뒤에 큐 레이트하고 훈련시킬 수 있습니다.

반면, API 중심의 ‘Rent-An-AI’시스템은 보조 제어 시스템이 직접 교육 된 모델에 대한보다 간단하고 사용자 친화적 인 해석 방법을 개발하기 위해 잘 동기 부여 될 수 있습니다.

플레이하려면 클릭하십시오. FullDit을 사용하여 비디오 생성에 부과 된 깊이+텍스트 컨트롤.

* 저자는 알려진 기본 모델 (예 : SDXL 등)을 지정하지 않습니다.

2025 년 3 월 27 일 목요일에 처음 출판되었습니다

게시물 AI 비디오 생성의 전체 제어를 향해 먼저 나타났습니다 Unite.ai.

Share post:

Subscribe

Popular

More like this
Related

성공을위한 시나리오 : Microsoft 365 Copilot과 함께 일상적인 작업을 간소화합니다.

교육 전문가들은 창의성, 헌신 및 전문 지식을...

AI 시대의 공공 부문 보안 운영 전환

사이버 해제 환경은 전례없는 속도로 진화하여 점점 위험하고 복잡해지고...

4월 3일 정부지원사업 신규 공고 리스트 (117건) _ (파일 재가공/재배포 가능)

4월 3일 117건<4/3 지원사업 신규 공고 목록> *전 영업일인 4/2에...

Carbon Robotics는 새로운 Carbon Autotractor Autonomy Kit를 소개합니다

Carbon Robotics의 Laserweeder와 함께 탄소 자동 촉진제. | 신용...