AI 뉴스허브

시간적으로 일관된 안정적 확산 비디오 캐릭터를 위한 새로운 시스템

시간적으로 일관된 안정적 확산 비디오 캐릭터를 위한 새로운 시스템

알리바바 그룹의 새로운 이니셔티브는 안정적 확산 기반 기반 모델을 사용하여 전신 인간 아바타를 생성하는 데 있어 제가 본 것 중 가장 뛰어난 방법 중 하나를 제공합니다.

제목 미모 (으악 영형bject Interactions) 시스템은 CGI 기반 인간 모델을 포함한 다양한 인기 있는 기술과 모듈을 사용합니다. 애니메이션 차이비디오에서 시간적으로 일관된 캐릭터 교체를 가능하게 하거나 사용자 정의 골격 포즈로 캐릭터를 구동합니다.

여기서 우리는 단일 이미지 소스에서 보간된 문자와 사전 정의된 동작에 의해 구동되는 문자를 봅니다.

[Click video below to play]

단일 소스 이미지에서 세 가지 다양한 캐릭터가 MIMO 시스템을 사용하여 3D 포즈 시퀀스(맨 왼쪽)에 의해 구동됩니다. 더 많은 예시와 뛰어난 해상도를 보려면 프로젝트 웹사이트와 이에 수반되는 YouTube 비디오(이 기사의 마지막에 포함됨)를 참조하세요. 출처: https://menyifang.github.io/projects/MIMO/index.html

영상의 프레임이나 그 외 다양한 방법으로 생성된 캐릭터는 실제 영상에 통합할 수 있습니다.

MIMO는 캐릭터, 장면, 오클루전(즉, 매팅, 묘사되는 캐릭터 앞을 어떤 물체나 사람이 지나갈 때)에 대해 각각 3개의 개별 인코딩을 생성하는 새로운 시스템을 제공합니다. 이러한 인코딩은 추론 시간에 통합됩니다.

[Click video below to play]

MIMO는 원래 캐릭터를 대상 비디오의 동작을 따르는 사실적이거나 양식화된 캐릭터로 대체할 수 있습니다. 더 많은 예와 뛰어난 해상도를 보려면 프로젝트 웹사이트와 함께 제공되는 YouTube 비디오(이 기사의 끝에 포함됨)를 참조하세요.

이 시스템은 연구자들이 큐레이팅한 맞춤형 데이터 세트를 사용하여 Stable Diffusion V1.5 모델을 통해 훈련되었으며, 실제 세계 비디오와 시뮬레이션 비디오로 구성되었습니다.

확산 기반 비디오의 가장 큰 문제점은 시간적 안정성영상의 내용이 일관된 캐릭터 표현에 적합하지 않은 방식으로 깜빡이거나 ‘진화’하는 경우입니다.

MIMO는 대신 일관된 안내를 위한 맵으로 단일 이미지를 효과적으로 사용하며 이는 간극에 의해 조정되고 제한될 수 있습니다. 에스엠피엘 CGI 모델.

소스 참조가 일관적이고, 시스템이 훈련된 기본 모델이 적절한 대표적 동작 예제로 향상되었기 때문에, 시스템의 시간적으로 일관된 출력 기능은 확산 기반 아바타의 일반적인 표준보다 훨씬 높습니다.

[Click video below to play]

포즈 기반 MIMO 캐릭터의 추가 예. 더 많은 예와 뛰어난 해상도를 보려면 프로젝트 웹사이트와 함께 제공되는 YouTube 비디오(이 기사의 끝에 포함됨)를 참조하세요.

단일 이미지를 효과적인 신경 표현의 소스로 사용하는 것이 점점 더 일반화되고 있으며, 그 자체로 또는 텍스트 프롬프트와 결합된 멀티모달 방식으로 사용됩니다. 예를 들어, 인기 있는 라이브포트레이트 얼굴 전송 시스템은 또한 매우 믿을 만한 딥페이크 얼굴을 생성할 수 있습니다. 단일 얼굴 이미지에서.

연구자들은 MIMO 시스템에 사용된 원리가 다른 새로운 유형의 생성 시스템과 프레임워크로 확장될 수 있다고 믿습니다.

그만큼 새로운 종이 제목이 있습니다 MIMO: 공간 분해 모델링을 통한 제어 가능한 캐릭터 비디오 합성그리고 Alibaba Group의 Institute for Intelligent Computing의 4명의 연구원에게서 나왔습니다. 이 작업에는 비디오가 가득한 프로젝트 페이지 그리고 동반되는 유튜브 비디오이 기사의 맨 아래에도 포함되어 있습니다.

방법

MIMO는 자동 및 감독되지 않은 앞서 언급한 세 가지 공간적 구성요소를 엔드투엔드 아키텍처로 분리합니다(즉, 모든 하위 프로세스가 시스템에 통합되고 사용자는 입력 자료만 제공하면 됩니다).

MIMO의 개념적 스키마. 출처: https://arxiv.org/pdf/2409.16160

MIMO에 대한 개념적 구성. 출처: https://arxiv.org/pdf/2409.16160

소스 비디오의 객체는 처음에는 단안 깊이 추정기를 사용하여 2D에서 3D로 변환됩니다. 깊이 무엇이든. 모든 프레임의 인간적 요소는 다음에서 적용된 방법을 사용하여 추출됩니다. 튠-어-비디오 프로젝트.

이것들 특징 그런 다음 Facebook Research의 비디오 기반 체적 측면으로 변환됩니다. 무엇이든 분할 2 건축학.

장면 레이어 자체는 다른 두 레이어에서 감지된 객체를 제거하여 얻어지며, 효과적으로 로토스코프 스타일의 마스크를 자동으로 제공합니다.

동작을 위해 추출된 집합 잠재 코드 인간적 요소는 기본 인간 CGI 기반 SMPL 모델에 고정되어 있으며, 이 모델의 움직임은 렌더링된 인간 콘텐츠에 대한 맥락을 제공합니다.

2D 피쳐 맵 인간의 콘텐츠는 다음에 의해 획득됩니다. 미분 가능한 래스터라이저 에서 파생 2020 이니셔티브 NVIDIA에서. SMPL에서 얻은 3D 데이터를 NVIDIA 방법으로 얻은 2D 데이터와 결합하면 ‘신경 인간’을 나타내는 잠재 코드는 최종 컨텍스트와 견고한 대응 관계를 갖습니다.

이 시점에서 SMPL을 사용하는 아키텍처에서 일반적으로 필요한 참조를 설정하는 것이 필요합니다. 정식 포즈. 이것은 다빈치의 것과 크게 유사합니다. ‘비트루비우스적 인간’이는 콘텐츠를 받아들여 변형할 수 있는 제로 포즈 템플릿을 나타내며 (실제로) 텍스처 매핑된 콘텐츠를 함께 가져옵니다.

이러한 변형 또는 ‘표준에서의 편차’는 인간의 움직임을 나타내는 반면, SMPL 모델은 추출된 인간의 정체성을 구성하는 잠재적 코드를 보존하므로 결과적으로 나오는 아바타의 포즈와 질감을 정확하게 나타냅니다.

SMPL 피규어의 정식 포즈의 예. 출처: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

이 문제에 관하여 녹채 (훈련된 데이터가 훈련된 범위와 연관성을 넘어 확장될 때 얼마나 유연하지 않을 수 있는지) 저자는 다음과 같이 말합니다.*

‘포즈를 취한 비디오 프레임에서 모습을 완전히 분리하기 위한 이상적인 솔루션은 단안 비디오에서 동적인 인간 표현을 학습하고 이를 포즈 공간에서 표준 공간으로 변환하는 것입니다.

‘효율성을 고려하여, 우리는 포즈를 취한 인간 이미지를 사전 훈련된 인간 휴식 모델을 사용하여 표준 A-포즈의 정식 결과로 직접 변환하는 단순화된 방법을 채택합니다. 합성된 정식 외관 이미지는 ID 인코더에 공급되어 정체성을 얻습니다.

‘이 간단한 디자인은 정체성과 동작 속성의 완전한 분리를 가능하게 합니다.[[누구에게나 애니메이션을 적용하세요], ID 인코더에는 다음이 포함됩니다. 클립 글로벌 및 로컬 기능을 내장하기 위한 이미지 인코더 및 참조 넷 아키텍처 [respectively].’

장면 및 폐색 측면의 경우 공유 및 고정 변분 자동 인코더 (VAE – 이 경우에는 다음에서 파생됨 2013년 출판)는 장면 및 폐색 요소를 잠재 공간에 내장하는 데 사용됩니다. 불일치는 다음에 의해 처리됩니다. 인페인팅 2023년부터의 방법 프로페인터 프로젝트.

이런 식으로 조립하고 보정하면, 비디오 속 배경과 가려진 물체 모두가 움직이는 인간 아바타에 매트 효과를 제공합니다.

이러한 분해된 속성은 다음에 공급됩니다. 유넷 Stable Diffusion V1.5 아키텍처를 기반으로 하는 백본. 전체 장면 코드는 호스트 시스템의 기본 잠재 노이즈와 연결됩니다. 인간 구성 요소는 다음을 통해 통합됩니다. 자기 주의 그리고 교차주의 각각 층.

그 다음에는, 소음 제거 결과는 VAE 디코더를 통해 출력됩니다.

데이터 및 테스트

훈련을 위해 연구원들은 5,000개의 실제 캐릭터 비디오와 2,000개의 합성 애니메이션으로 구성된 HUD-7K라는 인간 비디오 데이터 세트를 만들었습니다. 엔3디 시스템. 실제 비디오는 MIMO 아키텍처의 그림 추출 절차가 의미론적이지 않기 때문에 주석이 필요하지 않았습니다. 합성 데이터는 완전히 주석이 달렸습니다.

이 모델은 24개의 비디오 프레임과 50번의 반복을 위해 8개의 NVIDIA A100 GPU에서 학습되었습니다(논문에서는 이것이 40GB 또는 80GB VRAM 모델인지 명시하지 않음). 배치 크기 4개 중, 까지 수렴.

시스템의 모션 모듈은 AnimateDiff의 가중치에 대해 학습되었습니다. 학습 프로세스 동안 VAE 인코더/디코더와 CLIP 이미지 인코더의 가중치는 (전체와 대조적으로 미세 조정(이는 기초 모델에 훨씬 더 광범위한 영향을 미칠 것입니다).

MIMO는 유사 시스템에 대해 시험되지 않았지만 연구원들은 다음에서 얻은 어려운 분포 외부 모션 시퀀스에서 MIMO를 테스트했습니다. 쌓다 그리고 믹사모. 이러한 움직임에는 등반, 놀이, 춤추기가 포함되었습니다.

그들은 또한 야생에서 촬영한 인간 비디오에서 시스템을 테스트했습니다. 두 경우 모두, 논문은 다른 관점에서 이러한 보이지 않는 3D 동작에 대해 ‘높은 견고성’을 보고합니다.

이 논문에서는 시스템의 효과를 보여주는 여러 가지 정적 이미지 결과를 제시하지만, MIMO의 실제 성능은 프로젝트 페이지에서 제공하는 광범위한 비디오 결과와 아래에 포함된 YouTube 비디오(이 기사의 시작 부분에 있는 비디오는 이 비디오에서 파생됨)를 통해 가장 잘 평가할 수 있습니다.

저자들은 다음과 같이 결론을 내렸습니다.

‘실험 결과 [demonstrate] 우리의 방법은 유연한 캐릭터, 동작 및 장면 제어를 제공할 뿐만 아니라 임의의 캐릭터에 대한 뛰어난 확장성, 새로운 3D 동작에 대한 일반성, 대화형 장면에 대한 적용성을 제공합니다.

‘우리도 [believe] 3D의 본질을 고려하고 2D 비디오를 계층적 공간 구성 요소로 자동 인코딩하는 저희 솔루션은 3D 인식 비디오 합성에 대한 미래 연구에 영감을 줄 수 있습니다.

‘더욱이 우리의 프레임워크는 캐릭터 영상을 생성하는 데 적합할 뿐만 아니라, 다른 제어 가능한 영상 합성 작업에도 잠재적으로 적용될 수 있습니다.’

결론

안정된 확산을 기반으로 하는 아바타 시스템이 시간적 안정성을 유지할 수 있는 것처럼 보이는 것은 상쾌한 일입니다. 가우시안 아바타가 다음과 같은 것처럼 보이기 때문입니다. 높은 지위를 얻다 이 특정 연구 분야에서.

결과물에 나타난 양식화된 아바타는 효과적이며 MIMO가 만들어낼 수 있는 사진적 사실성의 수준은 현재로선 가우시안 스플래팅이 제공할 수 있는 수준과 같지는 않지만 의미 기반 잠재 확산 네트워크(LDM)에서 시간적으로 일관된 인간을 만드는 데에는 상당한 장점이 있습니다.

* 저자의 인라인 인용문을 하이퍼링크로 변환하고, 필요한 경우 외부 설명 하이퍼링크도 변환합니다.

첫 번째 게시일 2024년 9월 25일 수요일

게시물 시간적으로 일관된 안정적 확산 비디오 캐릭터를 위한 새로운 시스템 처음 등장 유나이트.AI.

Exit mobile version