메모: 이 작업의 프로젝트 페이지에는 총 33 개의자가 재생 고해상도 비디오가 포함되어있어 내 시스템이 부하로 불안정화되었습니다. 이런 이유로, 나는 그것에 직접 연결하지 않을 것입니다. 독자는 종이의 초록 또는 PDF에서 URL을 선택하면 URL을 찾을 수 있습니다.
현재 비디오 합성 연구의 주요 목표 중 하나는 단일 이미지에서 완전한 AI 구동 비디오 성능을 생성하는 것입니다. 이번 주 Bytedance Intelligent Creation의 새로운 논문은 지금까지 이런 종류의 가장 포괄적 인 시스템이 무엇인지 설명했으며, 표현적인 얼굴 세부 사항을 정확한 대규모 모션과 결합한 전체 및 반 바디 애니메이션을 생성 할 수있는 반면, 선도적 인 상업용 시스템조차도 종종 부족한 영역을 달성했습니다.
아래의 예에서는 배우 (왼쪽 상단)가 구동하고 단일 이미지 (오른쪽 상단)에서 파생 된 공연이 보이며, 이는 평소와 함께 놀랍도록 유연하고 독창적 인 렌더링을 제공합니다. 문제 폐색 된 지역에 대한 큰 움직임을 만들거나 ‘추측’주변 (예 : 단독 소스 사진에서 보이지 않기 때문에 추론하거나 발명 해야하는 의류의 일부 및 얼굴 각도) : :
오디오 컨텐츠. 플레이하려면 클릭하십시오. 공연은 일반적으로 전용 보조 시스템의 보존 인 Lip-Sync를 포함한 두 가지 소스에서 탄생합니다. 이것은 소스 사이트에서 축소 된 버전입니다 (기사 시작시 참고 – 여기 다른 모든 내장 비디오에 적용).
우리는 각 클립이 진행됨에 따라 정체성의 지속성에 관한 몇 가지 잔류 도전을 볼 수 있지만, 이것은 일반적으로 지속적으로 ID를 유지하는 데 탁월한 시스템입니다. 로라스:
오디오 컨텐츠. 플레이하려면 클릭하십시오. Dreamactor 프로젝트의 추가 예.
제목의 새로운 시스템 Dreamactor얼굴 표정, 헤드 회전 및 코어 골격 디자인에 전념하는 3 부분으로 된 하이브리드 제어 시스템을 사용하므로 얼굴이나 신체 측면이 다른 사람을 희생시키면서 겪지 않는 AI 구동 성능을 수용 할 수 있습니다.
아래에서 우리는이 측면 중 하나를 볼 수 있습니다. 헤드 회전실제로. 오른쪽을 향한 각 썸네일의 모서리에있는 색상은 얼굴 움직임과 표현과 독립적으로 머리 지향을 정의하는 일종의 가상 짐벌을 나타냅니다.
플레이하려면 클릭하십시오. 여기에서 시각화 된 다색 공은 아바타 헤드의 회전 축을 나타내며, 표현은 별도의 모듈로 구동되며 액터의 성능 (여기서 왼쪽 아래에 있음)에 의해 알려집니다.
이 프로젝트의 가장 흥미로운 기능 중 하나는 논문 테스트에 제대로 포함되지 않은 기능 중 하나는 오디오에서 직접 입술 동기 이동을 도출 할 수있는 능력입니다.
연구원들은이 추구에서 최고의 재직자를 맡았습니다. 활주로 행위 그리고 LivePortrait그리고 Dreamactor가 더 나은 정량적 결과를 얻을 수 있다고보고하십시오.
연구자들은 자신의 기준을 설정할 수 있기 때문에 정량적 결과가 반드시 경험적 표준은 아닙니다. 그러나 첨부 된 질적 테스트는 저자의 결론을 뒷받침하는 것으로 보인다.
불행히도이 시스템은 공개 릴리스를위한 것이 아니며, 커뮤니티가 작업에서 파생 할 수있는 유일한 가치는 논문에 요약 된 방법론을 잠재적으로 재현하는 것입니다 (동일하게 폐쇄 소스에 주목할만한 영향을 미쳤습니다. 2022 년 Google Dreambooth).
논문은*:
‘인간 이미지 애니메이션은 가짜 비디오를 만드는 데 오용되는 것과 같은 사회적 위험이 있습니다. 제안 된 기술은 사람들의 가짜 비디오를 만드는 데 사용될 수 있지만 기존 탐지 도구[[Demamba,,, 잠자는]이 가짜를 발견 할 수 있습니다.
‘이러한 위험을 줄이려면 명확한 윤리적 규칙과 책임있는 사용 지침이 필요합니다. 오용을 방지하기 위해 핵심 모델과 코드에 대한 액세스를 엄격히 제한 할 것입니다. ‘
당연히, 이런 종류의 윤리적 고려 사항은 상업적 관점에서 편리합니다. 왜냐하면 그것은 모델에 대한 API에 대한 액세스에 대한 이론적 근거를 제공하고 수익을 창출 할 수 있기 때문입니다. Bytedance는 이미 2025 년 에이 작업을 수행했습니다. 많은 옴니우만 Dreamina 웹 사이트에서 유료 크레딧으로 사용할 수 있습니다. 따라서 Dreamactor는 아마도 더 강력한 제품 일 수 있으므로 결과는 가능성이 높습니다. 남아있는 것은 논문에서 설명되는 한 그 원칙이 오픈 소스 커뮤니티를 도울 수있는 정도입니다.
그만큼 새로운 종이 제목이 있습니다 Dreamactor-M1 : 하이브리드 지침이있는 전체적이고 표현력 있고 강력한 인간 이미지 애니메이션6 명의 Bytedance 연구원들로부터 나왔습니다.
방법
이 논문에서 제안 된 Dreamactor 시스템은 확산 변환 (DIT) 프레임 워크에 적합합니다 잠재 된 공간 (분명히 안정적인 확산의 맛은 분명히, 종이는 2022 랜드 마크 릴리스 출판).
저자는 참조 조절을 처리하기 위해 외부 모듈에 의존하는 대신 DIT 백본 내부에서 외관 및 모션 기능을 직접 병합하여 공간과 시간 간의 상호 작용을주의를 기울일 수 있습니다.

새로운 시스템에 대한 스키마 : Dreamactor는 포즈, 얼굴 움직임 및 외관을 별도의 잠복으로 인코딩하여 3D VAE에 의해 생성 된 노이드 비디오 잠복과 결합합니다. 이 신호는 분기에 걸쳐 공유 중량이있는 자체 및 교차 변압기를 사용하여 확산 변압기 내에서 융합됩니다. 이 모델은 비난 된 출력을 비교하여 비디오 잠재를 청소하여 감독됩니다. 출처 : https://arxiv.org/pdf/2504.01724
이를 위해이 모델은 사전 배치 된 3D를 사용합니다 다양한 카 스코더 입력 비디오와 참조 이미지를 모두 인코딩합니다. 이 잠복 패치연결을하고 DIT에 공급하여 공동으로 처리합니다.
이 아키텍처는 참조 주입을 위해 보조 네트워크를 첨부하는 일반적인 관행에서 출발합니다. 누구나 애니메이션 그리고 누구나 애니메이션 2 프로젝트.
대신, Dreamactor는 융합을 기본 모델 자체로 구축하여 디자인을 단순화하면서 외관과 모션 큐 사이의 정보의 흐름을 향상시킵니다. 그런 다음 모델을 사용하여 교육을받습니다 흐름 일치 표준 확산 목표 대신 (플로우 매칭 트레인 데이터와 노이즈 사이의 속도 필드를 직접 예측하여 건너 뛰기. 점수 추정).
하이브리드 모션 안내
신경 렌더링을 알리는 하이브리드 모션 안내 방법은 3D 바디 골격과 헤드 구에서 파생 된 포즈 토큰을 결합합니다. 사전 각인면 인코더에 의해 추출 된 암시 적 얼굴 표현; 소스 이미지에서 샘플링 된 참조 외관 토큰.
이러한 요소는 뚜렷한주의 메커니즘을 사용하여 확산 변압기 내에 통합되어 시스템이 세대 프로세스 전반에 걸쳐 글로벌 운동, 얼굴 표현 및 시각적 정체성을 조정할 수 있습니다.
이들 중 첫 번째의 경우, 얼굴 랜드 마크에 의존하기보다는 Dreamactor는 암시 적 얼굴 표현을 사용하여 표현 생성을 안내하며, 표현에서 정체성과 헤드 포즈를 분해하면서 얼굴 역학에 대한 더 미세한 제어를 가능하게합니다.
이러한 표현을 만들기 위해 파이프 라인은 먼저 운전 비디오의 각 프레임에서 얼굴 영역을 감지하고 작물을 만들어 224 × 224로 조정합니다. 잘린 얼굴은 얼굴 모션 인코더에 의해 처리됩니다. PD-FGC 그런 다음 데이터 세트 MLP 층.

Dreamactor에 사용 된 PD-FGC는 립싱크 (오디오), 헤드 포즈, 눈 움직임 및 표현 (별도의 비디오에서)을 제어 할 수있는 참조 이미지에서 대화 헤드를 생성하여 각각의 정확하고 독립적 인 조작을 허용합니다. 출처 : https://arxiv.org/pdf/2211.14506
결과는 일련의 얼굴 모션 토큰이며, 이는 확산 변압기에 주입됩니다. 상호 관찰 층.
동일한 프레임 워크도 지원합니다 오디오 구동 변형, 여기서 별도의 인코더는 음성 입력을 직접 모션 토큰으로 맵핑하는 훈련을받습니다. 이를 통해 운전 비디오없이 립 움직임을 포함한 동기화 된 얼굴 애니메이션을 생성 할 수 있습니다.
오디오 컨텐츠. 플레이하려면 클릭하십시오. 립 동기화는 운전 배우 참조없이 오디오에서 순수하게 파생됩니다. 유일한 문자 입력은 오른쪽 상단의 정적 사진입니다.
둘째, 얼굴 표정과 독립적으로 헤드 포즈를 제어하기 위해이 시스템은 3D 헤드 구식 표현 (이 기사의 앞부분에서 내장 된 비디오 참조)을 도입하여 글로벌 헤드 움직임에서 얼굴 역학을 분리하여 애니메이션 중 정밀성과 유연성을 향상시킵니다.
헤드 구체는 회전 및 카메라 포즈와 같은 3D 얼굴 매개 변수를 추출하여 생성됩니다. 페이스리스 추적 방법.

Faceverse 프로젝트의 스키마. 출처 : https://www.liuyebin.com/faceverse/faceverse.html
이 매개 변수는 2D 이미지 평면에 투사되는 색상 구를 드라이브 헤드와 공간적으로 정렬하는 데 사용됩니다. 구의 크기는 기준 헤드와 일치하며 색상은 머리의 방향을 반영합니다. 이러한 추상화는 학습 3D 헤드 모션의 복잡성을 감소시켜 애니메이션에서 나온 문자의 양식화 또는 과장된 헤드 모양을 보존하는 데 도움이됩니다.

헤드 방향에 영향을 미치는 제어 구의 시각화.
마지막으로, 전신 운동을 안내하기 위해 시스템은 적응 형 뼈 길이 정규화와 함께 3D 바디 골격을 사용합니다. 신체 및 손 매개 변수는 사용하여 추정됩니다 4dhumans 그리고 손으로 초점을 맞 춥니 다 하머둘 다 SMPL-X 바디 모델.

SMPL-X는 이미지에서 전체 인체에 대한 매개 변수 메쉬를 적용하여 추정 포즈 및 표현식과 일치하여 메시를 체적 가이드로 사용하여 포지 인식 조작을 가능하게합니다. 출처 : https://arxiv.org/pdf/1904.05866
이러한 출력에서 주요 조인트는 SELEC입니다 TED는 2D로 투사되어 라인 기반 골격 맵으로 연결되었습니다. 다음과 달리 챔피언전신 메쉬를 렌더링하면,이 접근법은 사전 정의 된 모양 우선권을 부과하고 골격 구조에만 의존함으로써 모델은 기준 이미지에서 직접 신체 모양과 외관을 유추하고 고정 신체 유형에 대한 편견을 줄이며 다양한 포즈 및 빌드에 걸쳐 일반화를 향상시키는 것이 좋습니다.
훈련 중에, 3D 바디 골격은 헤드 구와 연결되어 포즈 인코더를 통과하여 출력합니다. 특징 그런 다음 확산 변압기가 사용하는 노이즈 토큰을 생성하기 위해 노이드 비디오 잠복과 결합됩니다.
추론 시간에, 시스템은 뼈 길이를 정상화하여 피험자들 사이의 골격 차이를 설명합니다. 그만큼 시드 에디트 사전 임상 이미지 편집 모델은 참조와 구동 이미지를 표준으로 변환합니다. 표준 구성. rtmpose 그런 다음 골격 비율을 추출하는 데 사용되는데, 이는 기준 대상의 해부학과 일치하도록 구동 골격을 조정하는 데 사용됩니다.

추론 파이프 라인의 개요. 외관 신호를 풍부하게하기 위해 의사 참조가 생성 될 수있는 반면, 하이브리드 제어 신호 (암시 적 얼굴 운동 및 헤드 구 및 바디 골격의 명백한 자세)는 운전 비디오에서 추출됩니다. 그런 다음 이들은 DIT 모델로 공급되어 애니메이션 출력을 생성하고 얼굴 모션은 바디 포즈에서 분리되어 오디오를 드라이버로 사용할 수 있습니다.
외관 안내
특히 폐색되거나 거의 보이지 않는 영역에서 외관 충실도를 향상시키기 위해 시스템은 입력 비디오에서 샘플링 된 의사 참조로 기본 참조 이미지를 보충합니다.
플레이하려면 클릭하십시오. 이 시스템은 폐색 된 영역을 정확하고 일관되게 렌더링해야 할 필요성을 예상합니다. 이것은 이런 종류의 프로젝트에서 CGI 스타일의 비트 맵 텍스트 접근 방식에 대해 본 것만 큼 가깝습니다.
이러한 추가 프레임은 RTMPES를 사용하여 포즈 다양성을 위해 선택되며 클립 기반 유사성을 사용하여 필터링되어 피험자의 정체성과 일치하도록합니다.
모든 기준 프레임 (1 차 및 의사)은 동일한 시각적 인코더로 인코딩되고 자체 정보 메커니즘을 통해 융합되어 모델이 보완적인 모양 신호에 액세스 할 수 있습니다. 이 설정은 프로파일 뷰 또는 사지 텍스처와 같은 세부 사항의 적용 범위를 향상시킵니다. 의사 중심은 항상 훈련 중에 그리고 선택적으로 추론 중에 사용됩니다.
훈련
Dreamactor는 3 단계로 훈련을 받았으며, 복잡성을 점차적으로 도입하고 안정성을 향상 시켰습니다.
첫 번째 단계에서는 얼굴 표현을 제외하고 3D 바디 골격 및 3D 헤드 구만 제어 신호로 사용되었습니다. 이를 통해 기본 비디오 생성 모델이 초기화되었습니다 MMDIT세밀한 제어에 압도되지 않고 인간 애니메이션에 적응하는 것.
두 번째 단계에서는 암시 적 얼굴 표현이 추가되었지만 다른 모든 매개 변수 언. 이 시점에서 얼굴 모션 인코더와 얼굴주의 레이어 만 훈련되어 모델이 분리 된 표현 세부 사항을 학습 할 수있었습니다.
마지막 단계에서는 외관, 포즈 및 얼굴 역학에 대한 공동 최적화를 위해 모든 매개 변수가 잘되지 않았습니다.
데이터 및 테스트
테스트 단계의 경우 모델은 사전에 사전 이미지-비디오 DIT 체크 포인트에서 초기화됩니다.† 그리고 3 단계로 훈련되었습니다. 첫 두 단계 각각에 대해 20,000 단계, 세 번째 단계의 30,000 단계.
향상 일반화 다른 기간과 해상도에서 비디오 클립은 25 ~ 121 프레임의 길이로 무작위로 샘플링되었습니다. 그런 다음 종횡비를 유지하면서 960x640px로 크기를 조정했습니다.
훈련은 8 개로 수행되었다 (중국 중심) NVIDIA H20 GPUS, 각각 96GB의 VRAM을 사용하여 아담 (허용 할 수 없을 정도로 높은) 최적화 학습 속도 5E -6.
추론에 따라, 각 비디오 세그먼트에는 73 프레임이 포함되어 있습니다. 세그먼트에 걸쳐 일관성을 유지하기 위해 한 세그먼트의 최종 잠재력은 다음에 대한 초기 잠재력으로 재사용되었으며, 이는 순차적 인 이미지-비디오 생성으로 작업을 맥락화합니다.
분류기가없는 지침 참조 이미지 및 모션 제어 신호 모두에 대해 2.5의 가중치로 적용되었습니다.
저자는 다양한 도메인에서 공급 된 500 시간의 비디오로 구성된 교육 데이터 세트 (논문에 출처가 없음)를 구축했으며, (다른) 댄스, 스포츠, 영화 및 대중 연설의 사례를 특징으로합니다. 이 데이터 세트는 전신과 반 바디 샷 사이의 균일 한 분포와 함께 광범위한 인간 운동 및 표현을 포착하도록 설계되었습니다.
얼굴 합성 품질을 향상시키기 위해 해초 데이터 준비 프로세스에 통합되었습니다.

Nersemble 데이터 세트의 예는 Dreamactor의 데이터를 보강하는 데 사용됩니다. 출처 : https://www.youtube.com/watch?v=a-oawqbzldu
평가를 위해 연구원들은 데이터 세트를 다양한 시나리오에서 일반화를 평가하기위한 벤치 마크로 사용했습니다.
모델의 성능은 이전 작업의 표준 메트릭을 사용하여 측정되었습니다. Fréchet Inception 거리 (버팀대); 구조적 유사성 지수 (SSIM); 배운 지각 이미지 패치 유사성 (LPIPS); 그리고 피크 신호 대 잡음비 프레임 레벨 품질의 경우 (PSNR). Fréchet 비디오 거리 (FVD)는 시간적 일관성 및 전반적인 비디오 충실도를 평가하는 데 사용되었습니다.
저자는 단일 (대상) 참조 이미지를 사용하는 바디 애니메이션과 초상화 애니메이션 작업 모두에 대한 실험을 수행했습니다.
바디 애니메이션의 경우 Dreamactor-M1은 누구나 애니메이션과 비교되었습니다. 챔피언; 모방그리고 처분하십시오.

라이벌 프레임 워크에 대한 정량적 비교.
PDF는 시각적 비교로 정적 이미지를 제공하지만 프로젝트 사이트의 비디오 중 하나는 차이점을보다 명확하게 강조 할 수 있습니다.
오디오 컨텐츠. 플레이하려면 클릭하십시오. Challenger 프레임 워크의 시각적 비교. 운전 비디오는 왼쪽 상단에 보이며 Dreamactor가 최상의 결과를 생성한다는 저자의 결론은 합리적으로 보입니다.
초상화 애니메이션 테스트의 경우 모델은 LivePortrait에 대해 평가되었습니다. X- 포르트 라이트; SkyReles-A1; 그리고 행동-하나.

초상화 애니메이션에 대한 정량적 비교.
저자는 그들의 방법이 정량적 테스트에서 승리하고 질적으로 우수하다고 주장한다.
오디오 컨텐츠. 플레이하려면 클릭하십시오. 초상화 애니메이션 비교의 예.
위의 비디오에 표시된 클립의 세 번째이자 마지막은 일반적인 품질이 현저히 높지만 라이벌 프레임 워크와 비교하여 덜 설득력있는 립스 동성을 나타냅니다.
결론
이러한 레크리에이션에 연료를 공급하는 유일한 대상 이미지에 묵시적이지만 실제로 존재하지 않는 텍스처의 필요성을 예상 할 때, Bytedance는 확산 기반 비디오 생성에 직면 한 가장 큰 과제 중 하나 인 일관되고 지속적인 텍스처를 다루었습니다. 이러한 접근 방식을 완성한 후 다음 논리적 단계는 Loras없이 외관을 유지하기 위해 후속 다른 세대에 적용될 수있는 초기 생성 클립에서 참조 아틀라를 만드는 것입니다.
이러한 접근 방식은 효과적으로 외부 참조 일 것이지만, 이는 전통적인 CGI 기술의 텍스처 매핑과 다르지 않으며, 현실주의와 타당성의 품질은 이전 방법이 얻을 수있는 것보다 훨씬 높습니다.
즉, Dreamactor의 가장 인상적인 측면은 결합 된 3 부 지침 시스템으로, 얼굴 중심과 신체 중심의 인간 합성 사이의 전통적인 분열을 독창적 인 방식으로 연결합니다.
이러한 핵심 원칙 중 일부가보다 접근하기 쉬운 오퍼링에서 활용 될 수 있는지 여부는 여전히 남아 있습니다. Dreamactor는 사용에 대한 제한에 심각하게 구속되며 상업용 아키텍처로 광범위하게 실험 할 수없는 또 다른 합성-서비스 제품이 될 예정인 것으로 보인다.
* 저자를위한 하이퍼 링크 대체; 인라인 인용
† 앞에서 언급했듯이,이 프로젝트에는 안정적인 확산의 맛이 명확하지 않습니다.
2025 년 4 월 4 일 금요일에 처음 출판되었습니다
게시물 인간 중심의 AI 비디오에서 주목할만한 발전 먼저 나타났습니다 Unite.ai.