여기에서 논의된 일부 자료의 특성으로 인해 이 기사에는 평소보다 참조 링크와 그림이 더 적게 포함됩니다.
현재 AI 합성 커뮤니티에서 주목할만한 일이 일어나고 있지만 그 중요성이 명확해지기까지는 시간이 걸릴 수 있습니다. 애호가들은 비디오 기반 기술을 사용하여 사람의 모습을 재현하기 위해 생성적 AI 비디오 모델을 훈련하고 있습니다. LoRA Tencent가 최근 출시한 오픈 소스에 대해 Hunyuan 비디오 프레임워크.*
재생하려면 클릭하세요. Civit 커뮤니티에서 무료로 제공되는 Hunyuan 기반 LoRA 사용자 정의의 다양한 결과. LoRA(저위 적응 모델)를 훈련함으로써 2년 동안 AI 비디오 생성을 괴롭혔던 시간적 안정성 문제가 크게 줄어듭니다. 출처: civit.ai
위에 표시된 비디오에서 여배우 Natalie Portman, Christina Hendricks 및 Scarlett Johansson의 초상은 기술 리더 Elon Musk와 함께 설치할 수 있는 Hunyuan 생성 비디오 시스템용 비교적 작은 추가 기능 파일로 훈련되었습니다. 콘텐츠 필터 없이 (예: NSFW 필터) 사용자 컴퓨터에 있습니다.
위에 표시된 Christina Hendricks LoRA의 제작자는 16개의 이미지만 다음과 같이 말합니다. 미친 남자 모델을 개발하려면 TV 쇼가 필요했습니다(단순한 307MB 다운로드). Reddit 및 Discord의 Stable Diffusion 커뮤니티의 여러 게시물은 이러한 종류의 LoRA가 대부분의 경우 많은 양의 훈련 데이터나 높은 훈련 시간을 필요로 하지 않음을 확인합니다.
기음핥아서 놀아요. Arnold Schwarzenegger는 Civit에서 다운로드할 수 있는 Hunyuan 비디오 LoRA를 통해 생생하게 구현되었습니다. AI 애호가 Bob Doyle이 작성한 Arnie의 추가 사례는 https://www.youtube.com/watch?v=1D7B9g9rY68을 참조하세요.
Hunyuan LoRA는 정적 이미지나 비디오로 교육할 수 있지만 비디오 교육에는 더 많은 하드웨어 리소스와 교육 시간이 필요합니다.
Hunyuan Video 모델은 130억 개의 매개변수를 갖추고 있으며 이는 Sora의 120억 매개변수를 초과하고 성능이 떨어지는 매개변수를 훨씬 능가합니다. 훈위안-DiT 2024년 여름에 오픈소스로 출시된 모델입니다. 매개변수가 15억 개에 불과합니다..
그랬던 것처럼 2년 반 전 Stable Diffusion 및 LoRA 사용(Stable Diffusion 1.5의 ‘기본’ 유명인 사례 참조) 여기), 문제의 기초 모델은 ‘ID 주입’ LoRA 구현을 통해 얻을 수 있는 충실도 수준에 비해 유명 인사에 대한 이해가 훨씬 제한적입니다.
효과적으로 맞춤형 성격 중심의 LoRA는 기본 Hunyuan 모델의 중요한 합성 기능을 ‘무임승차’하여 2017년에 얻을 수 있는 것보다 훨씬 더 효과적인 인간 합성을 제공합니다. 자동 인코더 딥페이크 또는 feted와 같은 시스템을 통해 정적 이미지에 움직임을 추가하려고 시도함으로써 라이브 초상화.
여기에 설명된 모든 LoRA는 매우 인기 있는 Civit 커뮤니티에서 무료로 다운로드할 수 있는 반면, 더 많은 수의 기존 맞춤형 ‘정적 이미지’ LoRA는 잠재적으로 비디오 제작 프로세스를 위한 ‘시드’ 이미지를 생성할 수도 있습니다(예: 이미지- to-video, Hunyuan Video의 출시가 보류 중입니다. 해결 방법이 가능합니다현재로서는).
재생하려면 클릭하세요. 위는 ‘정적’ Flux LoRA의 샘플입니다. 아래는 뮤지션 Taylor Swift가 출연한 Hunyuan 비디오 LoRA의 예입니다. 이 두 LoRA는 모두 Civit 커뮤니티에서 무료로 사용할 수 있습니다.
제가 글을 쓰는 동안 Civit 웹사이트에서는 ‘Hunyuan’*에 대한 128개의 검색 결과를 제공하고 있습니다. 이들 거의 모두는 어떤 면에서는 NSFW 모델입니다. 22개는 유명인을 묘사합니다. 18개는 하드코어 포르노 생성을 촉진하도록 설계되었습니다. 그중 7개만이 여성이 아닌 남성을 묘사하고 있습니다.
새로운 소식은 무엇인가요?
인해 진화하는 자연 용어의 딥페이크그리고 (꽤 심하다) 현재까지 AI 인간 영상 합성 프레임워크의 한계로 인해 Hunyuan LoRA의 중요성은 생성 AI 장면을 무심코 따라가는 사람에게는 이해하기 쉽지 않습니다. Hunyuan LoRA와 신원 기반 AI 비디오 생성에 대한 이전 접근 방식 간의 몇 가지 주요 차이점을 검토해 보겠습니다.
1: 자유로운 로컬 설치
Hunyuan Video의 가장 중요한 측면은 로컬로 다운로드할 수 있다는 점과 매우 강력하고 무수정 일반 사용자와 VFX 커뮤니티(라이센스가 여러 지역에 걸쳐 허용되는 범위 내)의 손에 AI 비디오 생성 시스템이 제공됩니다.
마지막으로 이런 일이 발생한 것은 Stability.ai Stable Diffusion 모델의 오픈 소스 릴리스가 등장한 것입니다. 2022년 여름에. 당시 OpenAI의 DALL-E2에는 캡처 DALLE-2는 눈에 띄는 제한이 있는 유료 서비스였지만(시간이 지남에 따라 성장)
Stable Diffusion이 가능해졌고 Low-Rank Adaptation을 통해 정체성의 이미지를 생성할 수 있게 되었습니다. 어느 사람(유명인이든 아니든), 개발자와 소비자 관심의 거대한 중심은 Stable Diffusion이 DALLE-2의 인기를 압도하는 데 도움이 되었습니다. 후자가 기본적으로 더 유능한 시스템이었지만 검열 루틴은 다음과 같습니다. 부담스러운 것으로 보임 많은 사용자가 사용자 정의를 할 수 없었습니다.
틀림없이 동일한 시나리오가 이제 Sora와 Hunyuan 사이에, 더 정확하게는 사이에 적용됩니다. 소라급 독점적인 생성 비디오 시스템 및 오픈 소스 경쟁업체인 Hunyuan이 첫 번째이지만 아마도 마지막은 아닐 것입니다(여기서 다음을 고려하십시오). 유량 결국 Stable Diffusion에 대한 상당한 기반을 확보하게 될 것입니다).
Hunyuan LoRA 출력을 생성하고 싶지만 강력한 장비가 부족한 사용자는 여전히 교육의 GPU 측면을 온라인 컴퓨팅 서비스로 오프로드할 수 있습니다. RunPod와 같은. 이는 Kaiber 또는 Kling과 같은 플랫폼에서 AI 비디오를 제작하는 것과 같지 않습니다. 왜냐하면 로컬 워크플로우를 지원하기 위해 온라인 GPU를 임대하는 데 수반되는 의미론적 또는 이미지 기반 필터링(검열)이 없기 때문입니다.
2: ‘호스트’ 비디오와 많은 노력이 필요하지 않습니다.
2017년 말에 딥페이크가 등장했을 때 익명으로 게시된 코드는 주류 포크로 발전했습니다. 딥페이스랩 그리고 페이스스왑 (또한 딥페이스라이브 실시간 딥페이킹 시스템).
이 방법을 사용하려면 각 신원의 얼굴 이미지 수천 장을 힘들게 선별해야 했습니다. 이 단계에 투입되는 노력이 적을수록 모델의 효율성은 떨어집니다. 또한 교육 시간은 사용 가능한 하드웨어에 따라 2~14일로 다양하여 장기적으로 가능한 시스템에도 스트레스를 줍니다.
모델이 최종적으로 준비되면 기존 비디오에 얼굴만 적용할 수 있었고 일반적으로 중첩된 신원과 외관상 가까운 ‘대상'(즉, 실제) 신원이 필요했습니다.
최근에는 루프LivePortrait 및 수많은 유사한 프레임워크는 훨씬 적은 노력으로 유사한 기능을 제공했으며 종종 우수한 결과를 얻었지만 정확한 결과를 생성할 수 있는 능력은 없습니다. 전신 딥페이크 – 또는 얼굴 이외의 요소.
대조적으로, Hunyuan LoRA(및 필연적으로 뒤따를 유사한 시스템)는 사용자가 훈련한 LoRA 아이덴티티의 전신 시뮬레이션을 포함하여 전체 세계의 무제한 생성을 허용합니다.
3: 대폭 향상된 시간적 일관성
시간적 일관성이 유지되었습니다. 성배 몇 년 동안 확산 비디오의. 적절한 프롬프트와 함께 LoRA를 사용하면 Hunyuan 비디오 세대가 고수해야 할 지속적인 정체성 참조를 제공할 수 있습니다. 이론적으로는(지금은 초기 단계임) 특정 정체성을 지닌 여러 LoRA를 각각 특정 옷을 입고 훈련시킬 수 있습니다.
이러한 후원 하에서 의상 역시 비디오 생성 과정에서 ‘변형’될 가능성이 적습니다(생성 시스템은 이전 프레임의 매우 제한된 창을 기반으로 다음 프레임을 기반으로 하기 때문).
(또는 이미지 기반 LoRA 시스템과 마찬가지로 ID + 의상 LoRA와 같은 여러 LoRA를 단일 비디오 생성에 간단히 적용할 수 있습니다.)
4: ‘인간 실험’에 대한 접근
나로서 최근에 관찰된독점 및 FAANG 수준 생성 AI 부문은 이제 프로젝트의 인간 합성 능력과 관련된 잠재적인 비판을 매우 경계하는 것으로 보입니다. 사람들 주요 발표 및 릴리스에 대한 프로젝트 페이지에는 거의 표시되지 않습니다. 대신, 관련 홍보 문헌은 합성된 결과에서 점점 ‘귀엽고’ 그렇지 않으면 ‘비위협적인’ 주제를 보여주는 경향이 있습니다.
Hunyuan LoRA의 출현으로 커뮤니티는 처음으로 LDM 기반 휴먼 비디오 합성의 한계를 한계가 아닌 뛰어난 성능의 시스템으로 확장하고 대다수가 가장 관심을 갖는 주제를 완전히 탐색할 수 있는 기회를 갖게 되었습니다. 우리 – 사람.
시사점
Civit 커뮤니티에서 ‘Hunyuan’을 검색하면 대부분 유명인 LoRA와 ‘하드코어’ LoRA가 표시되므로 Hunyuan LoRA 출현의 핵심 의미는 실제 인물의 AI 포르노(또는 명예훼손) 동영상을 만드는 데 사용될 것이라는 점입니다. 유명인과 무명인 모두.
규정 준수를 위해 Hunyuan LoRA를 만들고 다양한 Discord 서버에서 실험하는 애호가들은 실제 인물의 사례가 게시되는 것을 금지하기 위해 주의를 기울입니다. 현실은 심지어 영상이제 딥페이크 기반 심하게 무기화됨; 그리고 정말 사실적인 비디오를 믹스에 추가할 수 있다는 전망은 지난 7년 동안 미디어에서 반복되어 왔으며 새로운 새로운 것을 불러일으킨 고조된 두려움을 마침내 정당화할 수 있습니다. 규정.
원동력
언제나 그렇듯 포르노 유적 기술의 원동력. 그러한 사용에 대한 우리의 의견이 무엇이든, 이 끊임없는 자극 엔진은 궁극적으로 더 많은 주류 채택에 도움이 될 수 있는 최첨단 기술의 발전을 주도합니다.
이 경우 초현실적인 비디오 제작의 오픈 소스가 범죄적, 정치적, 윤리적 오용에 대한 명백한 영향을 미치기 때문에 가격이 평소보다 높아질 가능성이 있습니다.
NSFW 비디오 콘텐츠의 AI 생성을 전담하는 한 Reddit 그룹(여기서 이름은 지정하지 않음)에는 사용자가 개선하는 관련 개방형 Discord 서버가 있습니다. ComfyUI Hunyuan 기반 비디오 포르노 생성을 위한 워크플로. 매일 사용자들은 NSFW 클립의 예를 게시합니다. 그 중 다수는 ‘극단적’이라고 합리적으로 표현되거나 적어도 포럼 규칙에 명시된 제한 사항을 엄격하게 적용할 수 있습니다.
이 커뮤니티는 또한 포르노 비디오를 다운로드하고 처리하여 새로운 모델에 대한 교육 데이터를 제공할 수 있는 도구를 갖춘 실질적이고 잘 개발된 GitHub 저장소를 유지 관리합니다.
LoRA 트레이너 중 가장 인기가 많은 코야ss 이후, 이제 Hunyuan LoRA 교육을 지원합니다.무제한 생성 비디오 교육에 대한 진입 장벽이 나날이 낮아지고 있습니다. t와 함께 그는 하드웨어 요구 사항 Hunyuan 훈련 및 비디오 생성을 위해.
포르노 기반 AI에 대한 전용 교육 계획의 중요한 측면은 신원유명인과 같은 기반 모델)은 Hunyuan과 같은 표준 기반 모델이 NSFW 출력에 대해 특별히 훈련되지 않았으므로 NSFW 콘텐츠 생성 요청 시 성능이 저하되거나 실패할 수 있다는 것입니다. 풀다 수행적이거나 설득력 있는 방식으로 개념과 연관성을 학습합니다.
정밀하게 조정된 NSFW 기반 모델과 LoRA를 개발함으로써 훈련된 신원을 전용 ‘포르노’ 비디오 도메인에 투사하는 것이 점점 더 가능해질 것입니다. 결국 이것은 단지 비디오 버전일 뿐입니다. 이미 발생했습니다 지난 2년 반 동안의 정지 이미지에 대한 것입니다.
VFX
Hunyuan Video LoRA가 제공하는 시간적 일관성의 엄청난 증가는 오픈 소스 소프트웨어 적용에 크게 의존하는 AI 시각 효과 산업에 분명한 이점입니다.
Hunyuan Video LoRA 접근 방식은 전체 프레임과 환경을 생성하지만 VFX 회사는 얼굴을 실제 소스 영상에 중첩하거나 통합하기 위해 이 방법으로 얻을 수 있는 시간적으로 일관된 인간 얼굴을 분리하는 실험을 거의 확실히 시작했습니다. .
취미 커뮤니티와 마찬가지로 VFX 회사도 Hunyuan Video의 이미지-비디오 및 비디오-비디오 기능을 기다려야 합니다. 이는 잠재적으로 LoRA 기반 ID 기반 ‘딥페이크’ 콘텐츠 간의 가장 유용한 연결 기능입니다. 또는 즉흥적으로 작업하고 간격을 사용하여 프레임워크의 외부 기능과 잠재적인 적응, 심지어 Hunyuan Video의 독점 내부 포크까지 조사합니다.
비록 라이센스 조건 Hunyuan Video는 허가가 있는 한 기술적으로 실제 개인의 묘사를 허용하지만 EU, 영국 및 한국에서는 사용을 금지합니다. ‘라스베가스 체류’ 원칙에 따르면 이는 반드시 Hunyuan Video가 해당 지역에서 사용되지 않는다는 의미는 아닙니다. 그러나 외부 데이터 감사의 전망은 생성 AI에 대한 규제 증가이러한 불법 사용은 위험할 수 있습니다.
라이센스 조건에서 잠재적으로 모호할 수 있는 또 다른 영역은 다음과 같습니다.
‘Tencent Hunyuan 버전 출시일 현재 라이선스 사용자가 제공하거나 라이선스 사용자를 위해 제공되는 모든 제품 또는 서비스의 월간 활성 사용자가 이전 달의 월간 활성 사용자가 1억 명을 초과하는 경우 Tencent에 라이선스를 요청해야 합니다. 귀하는 단독 재량에 따라 귀하에게 권리를 부여할 수 있으며, Tencent가 귀하에게 해당 권리를 명시적으로 부여하지 않는 한 귀하는 본 계약에 따른 어떠한 권리도 행사할 권한이 없습니다.’
이 조항은 상대적으로 기술에 무지한 사용자 집단을 위해 Hunyuan Video를 ‘중개’할 가능성이 있고 특정 사용자 한도 이상으로 Tencent를 해당 조치에 참여시켜야 하는 다수의 회사를 겨냥한 것임이 분명합니다.
광범위한 표현이 또한 다룰 수 있는지 여부 간접적인 사용법(예: 인기 영화 및 TV에서 Hunyuan 지원 시각 효과 출력 제공)에 대한 설명이 필요할 수 있습니다.
결론
딥페이크 비디오는 오랫동안 존재했기 때문에 신원 합성 및 딥페이킹에 대한 접근 방식으로서 Hunyuan Video LoRA의 중요성을 과소평가하기 쉽습니다. 현재 Civit 커뮤니티와 관련 Discord 및 하위 레딧에서 나타나는 개발은 진정으로 제어 가능한 인간 비디오 합성을 향한 단순한 점진적인 움직임을 의미한다고 가정합니다.
현재의 노력은 완전히 설득력 있는 전신 및 전체 환경 딥페이크를 만들 수 있는 Hunyuan Video의 잠재력의 일부에 불과할 가능성이 높습니다. 이미지-비디오 구성 요소가 출시되면(이번 달에 출시될 예정이라는 소문) 훨씬 더 세부적인 수준의 생성 능력을 취미로 즐기는 사람과 전문적인 커뮤니티 모두에서 사용할 수 있게 될 것입니다.
Stability.ai가 2022년에 Stable Diffusion을 출시했을 때 많은 관찰자들은 회사가 당시 그렇게 귀중하고 강력한 생성 시스템이었던 것을 왜 그냥 제공했는지 판단할 수 없었습니다. Hunyuan Video의 경우 이익 동기가 라이센스에 직접 내장되어 있습니다. 하지만 Tencent가 회사가 언제 이익 공유 계획을 시작하는지 판단하기 어려울 수 있습니다.
어쨌든 결과는 2022년과 동일합니다. 즉각적으로 전담 개발 커뮤니티가 형성되어 출시에 대한 뜨거운 열정을 보였습니다. 이러한 노력이 향후 12개월 동안 취할 길 중 일부는 확실히 새로운 헤드라인을 장식할 것입니다.
* 출판 시점 기준 최대 136개.
2025년 1월 7일 화요일 첫 게시
게시물 Hunyuan 비디오 딥페이크의 부상 처음 등장한 Unite.AI.