내 이후 최근 보도 애호가 Hunyuan Video Loras의 성장 (Small, 훈련 된 파일 Civit 커뮤니티에서 이용할 수있는 관련 LORA의 수는 185%증가했습니다.
![Hunyuan 비디오 로라를 만들 수있는 특별한 방법이 없거나 효율적인 방법이 없다는 사실에도 불구하고 Civit의 유명 인사와 테마 로라의 카탈로그는 매일 성장하고 있습니다. 출처 : https://civitai.com/](https://www.unite.ai/wp-content/uploads/2025/01/hunyuan-rise.jpg)
Hunyuan 비디오 로라를 만들 수있는 특별한 방법이 없거나 효율적인 방법이 없다는 사실에도 불구하고 Civit의 유명 인사와 테마 로라의 카탈로그는 매일 성장하고 있습니다. 출처 : https://civitai.com/
Hunyuan Video (HV)를 위해 이러한 ‘애드온 성격’을 생산하는 방법을 배우기 위해 스크램블링하는 동일한 커뮤니티도 궤양 약속 된 an 이미지 대 비디오 (i2v) Hunyuan 비디오의 기능.
오픈 소스 인간 이미지 합성과 관련하여 이것은 큰 문제입니다. Hunyuan Loras의 성장과 결합하여 사용자는 비디오가 발전함에 따라 자신의 정체성을 침식하지 않는 방식으로 사람들의 사진을 비디오로 변환 할 수 있습니다. 현재 모든 최신 이미지에서 발생합니다. Kling, Kaiber 및 많은 유명 인종 ML을 포함한 비디오 발전기 :
플레이하려면 클릭하십시오. Runwayml의 최첨단 Gen 3 Turbo 모델의 이미지-비디오 생성. 그러나 모든 유사하고 덜 라이벌 모델과 함께, 피사체가 카메라에서 멀어지면 일관된 정체성을 유지할 수 없으며 시작 이미지의 뚜렷한 특징은 ‘일반적인 확산 여성’이됩니다.. 출처 : https://app.runwayml.com/
해당 개성에 대한 맞춤형 로라를 개발함으로써 HV I2V 워크 플로에서 실제 사진을 출발점으로 사용할 수 있습니다. 이것은 모델의 잠재적 공간에 임의의 숫자를 보내고 의미 론적 시나리오 결과를 위해 정착하는 것보다 훨씬 나은 ‘시드’입니다. 그런 다음 LORA 또는 다중 LORA를 사용하여 정체성, 헤어 스타일, 의류 및 세대의 기타 중추적 측면의 일관성을 유지할 수 있습니다.
잠재적으로, 그러한 조합의 가용성은 발사 이후 생성 AI에서 가장 에포 칼 교대 중 하나를 나타낼 수 있습니다. 안정적인 확산강력한 생성 전력으로 오픈 소스 애호가에게 전달 된 규제없이 (또는 원하는 경우, ‘게이트 키핑’) 콘텐츠 검열 인기있는 Gen Vid 시스템의 현재 작물에서.
내가 쓸 때, Hunyuan Image-to-Video는 an입니다 ‘할 일’ Hunyuan Video Github Repo에서, 애호가 커뮤니티 보고서 (일화 적으로) Hunyuan 개발자의 불일치 댓글을 작성했습니다. 너무 무수정되어 있습니다‘.
![Hunyuan 비디오의 공식 기능 릴리스 체크리스트. 출처 : https://github.com/tencent/hunyuanvideo?tab=readme-ov-file#-open-source-plan](https://www.unite.ai/wp-content/uploads/2025/01/Hunyuan-TO-DO.jpg)
Hunyuan 비디오의 공식 기능 릴리스 체크리스트. 출처 : https://github.com/tencent/hunyuanvideo?tab=readme-ov-file#-open-source-plan
정확하든 아니든, Repo 개발자는 나머지 Hunyuan 체크리스트에 실질적으로 전달되었으므로 Hunyuan I2V는 검열, 무수정 또는 어떤 방식 으로든 결국 도착하는 것으로 보입니다. ‘잠금 해제’.
그러나 위의 목록에서 볼 수 있듯이, I2V 릴리스는 분명히 별도의 모델이며, Civit 및 다른 곳에서 HV LORA의 현재 급성장 작물이 그 기능을 수행 할 가능성은 거의 없습니다.
이 (지금) 예측 가능한 시나리오에서 LORA 교육 프레임 워크 Musubi 튜너 그리고 Onetrainer 새 모델을 지원하는 것과 관련하여 다시 설정하거나 재설정됩니다. 한편, 가장 기술에 정통한 (및 기업가 적) YouTube AI Luminaries 중 하나 또는 두 개가 장면이 잡을 때까지 Patreon을 통해 솔루션을 줄입니다.
피로 업그레이드
거의 아무도 Lora 또는 미세 조정 애호가는 생성 AI의 빠르고 경쟁력있는 변화 속도가 안정성, Tencent 및 Black Forest Labs와 같은 모델 파운드리를 장려하기 때문에 최대의 실행 가능한 주파수에서 더 크고 (때로는) 더 나은 모델을 생산하도록 장려하기 때문입니다.
이 새롭고 개선 된 모델은 최소한 다른 편견을 가질 것이기 때문에 무게더 일반적으로 다른 규모 및/또는 아키텍처를 갖게 될 것입니다. 이는 미세 조정 커뮤니티가 데이터 세트를 다시 가져 와서 새 버전에 대한 격렬한 교육 프로세스를 반복해야 함을 의미합니다.
이러한 이유로, 다수의 안정적인 확산 LORA 버전 유형은 Civit에서 제공됩니다.
![Civit.ai의 검색 필터 옵션으로 시각화 된 업그레이드 트레일](https://www.unite.ai/wp-content/uploads/2025/01/variety.jpg)
Civit.ai의 검색 필터 옵션으로 시각화 된 업그레이드 트레일
이러한 경량 LORA 모델 중 어느 것도 모델 버전이 높거나 낮은 모델 버전과 상호 운용 할 수 없으므로 많은 사람들이 인기있는 대규모에 대한 의존성을 가지고 있기 때문에 합병 그리고 구형 모델을 준수하는 미세 조정은 커뮤니티의 상당 부분이 Windows XP에 대한 고객 충성도와 거의 같은 방식으로 ‘레거시’릴리스를 고수하는 경향이 있습니다. 공식적인 과거 지원이 끝난 지 몇 년이 지난 후.
변화에 적응
이 주제는 a 새로운 종이 기존 LORA를 새로 출시 된 모델 버전으로 ‘업그레이드’할 수있는 방법을 개발했다고 주장하는 Qualcomm AI 연구에서.
![모델 버전에서 LORA의 전환. 출처 : https://arxiv.org/pdf/2501.16559](https://www.unite.ai/wp-content/uploads/2025/01/translations.jpg)
모델 버전에서 LORA의 전환. 출처 : https://arxiv.org/pdf/2501.16559
그렇다고해서 새로운 접근법이 제목이라는 의미는 아닙니다 로라 -X동일한 유형의 모든 모델 (즉, 텍스트에서 이미지 모델 또는 큰 언어 모델 사이에서 자유롭게 번역 할 수 있습니다. [LLMs]); 그러나 저자들은 안정적인 확산 v1.5> SDXL로부터 LORA의 효과적인 음역과 텍스트 기반 Tinyllama 3T 모델에 대한 LORA의 전환을 Tinyllama 2.5T로 전환했습니다.
LORA-X는 어댑터 소스 모델의 부분 공간 내에서; 그러나 모델 버전에서 적절하게 유사한 모델의 일부에서만.
![왼쪽에서 LORA-X 소스 모델이 어댑터를 미세 조정하는 방식에 대한 스키마 후 자체 내부 구조를 사용하여 대상 모델에 맞도록 조정됩니다. 오른쪽에서, 추가 교육없이 SD-V1.5 및 SDXL에서 전송 된 어댑터를 적용한 후 대상 모델 SD EFF-V1.0 및 SSD-1B에 의해 생성 된 이미지.](https://www.unite.ai/wp-content/uploads/2025/01/adapter.jpg)
왼쪽에서 LORA-X 소스 모델이 어댑터를 미세 조정 한 다음 대상 모델에 맞게 조정되는 방식에 대한 스키마. 오른쪽에서, 추가 교육없이 SD-V1.5 및 SDXL에서 전송 된 어댑터를 적용한 후 대상 모델 SD EFF-V1.0 및 SSD-1B에 의해 생성 된 이미지.
이것은 재교육이 바람직하지 않거나 불가능한 시나리오 (원래 교육 데이터에 대한 라이센스 변경과 같은)에 대한 실용적인 솔루션을 제공하지만,이 방법은 다른 한계 중에서도 유사한 모델 아키텍처로 제한됩니다.
이것은 학사 분야로의 드문 진출이지만, 우리는 Lora-X의 수많은 단점으로 인해이 논문을 깊이 조사하지 않을 것입니다. Open Review의 비평가 및 고문.
이 방법의 의존 서브 스페이스 유사성 응용 프로그램을 밀접하게 관련된 모델로 제한하며 저자는 인정 리뷰 포럼에서 LORA-X는 상당히 다른 아키텍처에서 쉽게 전송할 수 없습니다.
다른 PEFT 접근
버전에서 Loras를보다 휴대용으로 만들 수있는 가능성은 문헌에서 작지만 흥미로운 연구가되며 Lora-X 가이 추구에 기여하는 주요 기여는 훈련이 필요하지 않다는 논쟁입니다. 논문을 읽는다면 이것은 엄격하게 사실이 아니지만 모든 이전 방법을 가장 적게 훈련해야합니다.
Lora-X는 캐논의 또 다른 항목입니다 매개 변수 효율적인 미세 조정 (PEFT) 광범위한 재교육없이 대규모 미리 훈련 된 모델을 특정 작업에 적응시키는 데 어려움을 겪는 방법. 이 개념적 접근법은 성능을 유지하면서 최소한의 매개 변수를 수정하는 것을 목표로합니다.
주목할만한 것은 다음과 같습니다.
X- 어래피터
그만큼 X- 어래피터 프레임 워크는 일정량의 재교육으로 모델에서 미세 조정 된 어댑터를 전송합니다. 이 시스템은 미리 훈련 된 플러그 앤 플레이 모듈 (예 : Controlnet 및 기본 확산 모델 (즉, 안정적인 확산 v1.5)으로부터 LORA)는 재 훈련없이 SDXL과 같은 업그레이드 된 확산 모델과 직접 작동하며 플러그인의 ‘범용 업그레이드’역할을 효과적으로 작용합니다.
이 시스템은 플러그인 커넥터를 보존하기 위해 기본 모델의 냉동 사본을 사용하여 업그레이드 된 모델을 제어하는 추가 네트워크를 교육함으로써이를 달성합니다.
![X- 어드페이터의 스키마. 출처 : https://arxiv.org/pdf/2312.02238](https://www.unite.ai/wp-content/uploads/2025/01/x-adapter.jpg)
X- 어드페이터의 스키마. 출처 : https://arxiv.org/pdf/2312.02238
X-Adapter는 원래 어댑터를 SD1.5에서 SDXL로 전송하기 위해 개발 및 테스트되었으며 LORA-X는 다양한 음역을 제공합니다.
DORA (체중 감량 저택 적응)
DORA는 전체 미세 조정과 더 유사한 중량 분해 전략을 사용하여 LORA를 향상시키는 향상된 미세 조정 방법입니다.
![DORA는 LORA-X와 마찬가지로 냉동 환경에서 어댑터를 복사하려고 시도 할뿐만 아니라 대신 크기 및 방향과 같은 가중치의 기본 매개 변수를 변경합니다. 출처 : https://arxiv.org/pdf/2402.09353](https://www.unite.ai/wp-content/uploads/2025/01/DORA-.jpg)
DORA는 LORA-X와 마찬가지로 냉동 환경에서 어댑터를 복사하려고 시도 할뿐만 아니라 대신 크기 및 방향과 같은 가중치의 기본 매개 변수를 변경합니다. 출처 : https://arxiv.org/pdf/2402.09353
Dora는 모델의 가중치를 크기와 방향으로 분해하여 미세 조정 프로세스 자체를 개선하는 데 중점을 둡니다 (위의 이미지 참조). 대신, LORA-X
그러나 LORA-X 접근법은 투사 DORA를 위해 개발 된 기술 과이 오래된 시스템에 대한 테스트에서 개선 된 것으로 주장합니다. 디노 점수.
Foura (푸리에 저 순위 적응)
2024 년 6 월에 출판 Foura 방법 Qualcomm AI Research의 Lora-X와 같은 것이 있으며 심지어 테스트 프롬프트 및 테마 중 일부를 공유합니다.
![LORA의 분포 붕괴의 예, 2024 FOURA 용지에서 4 개의 씨앗에 걸쳐 Lora와 Foura로 훈련 된 현실적인 비전 3.0 모델을 사용합니다. LORA 이미지는 분포 붕괴 및 다양성 감소를 나타내는 반면 Foura는 더 다양한 출력을 생성합니다. 출처 : https://arxiv.org/pdf/2406.08798](https://www.unite.ai/wp-content/uploads/2025/01/FOURA.jpg)
LORA의 분포 붕괴의 예, 2024 FOURA 용지에서 4 개의 씨앗에 걸쳐 Lora와 Foura로 훈련 된 현실적인 비전 3.0 모델을 사용합니다. LORA 이미지는 분포 붕괴 및 다양성 감소를 나타내며, Foura는 더 다양한 출력을 생성합니다. 출처 : https://arxiv.org/pdf/2406.08798
Foura는 주파수 영역에서 LORA를 적응시켜 생성 된 이미지의 다양성과 품질을 향상시키는 데 중점을 둡니다. 푸리에 변환 접근하다.
여기서, Lora-X는 더 나은 달성을 할 수있었습니다 Foura의 푸리에 기반 접근법보다 결과.
두 프레임 워크는 PEFT 범주에 속하지만 사용 사례와 접근 방식이 매우 다릅니다. 이 경우 Foura는 아마도 새로운 논문의 저자들과 같은 유사한 경쟁자들과 같은 제한된 테스트 라운드를 위해 ‘숫자를 구성’하고 있습니다.
SVD
SVDIFF는 또한 LORA-X와는 다른 목표를 가지고 있지만 새 논문에서 강력하게 활용됩니다. SVDIFF는 확산 모델의 미세 조정 효율을 향상 시키도록 설계되었으며 단수 벡터를 변경하지 않고 모델의 가중치 매트릭스 내에서 값을 직접 수정하도록 설계되었습니다. svdiff 사용 잘린 SVD모델의 가중치를 조정하기 위해 가장 큰 값 만 수정합니다.
이 접근법은 불리는 데이터 증강 기술을 사용합니다 컷 믹스-유니 믹스:
![다중 개체 생성은 SVDIFF의 개념 분리 시스템으로 작동합니다. 출처 : https://arxiv.org/pdf/2303.11305](https://www.unite.ai/wp-content/uploads/2025/01/Multi-subject-generation-in-SVDiff.jpg)
다중 개체 생성은 SVDIFF의 개념 분리 시스템으로 작동합니다. 출처 : https://arxiv.org/pdf/2303.11305
Cut-Mix-Unmix는 확산 모델이 여러 가지 개념을 혼합하지 않고 학습 할 수 있도록 설계되었습니다. 중심 아이디어는 다른 주제의 이미지를 찍어 단일 이미지로 연결하는 것입니다. 그런 다음 모델은 이미지의 별도 요소를 명시 적으로 설명하는 프롬프트로 훈련됩니다. 이것은 모델이 혼합하는 대신 뚜렷한 개념을 인식하고 보존하도록합니다.
훈련 중에 추가 정규화 용어는 교차 개체 간섭을 방지하는 데 도움이됩니다. 저자의 이론은 이것이 각 요소가 함께 융합되지 않고 시각적으로 구별되는 개선 된 다중 개체 생성을 용이하게한다고 주장한다.
LORA-X 테스트 라운드에서 제외 된 SVDIFF는 소형 매개 변수 공간을 만드는 것을 목표로합니다. 대신 LORA-X는 원래 모델의 하위 공간 내에서 작동함으로써 다른 기본 모델에서 LORA 매개 변수의 전달 가능성에 중점을 둡니다.
결론
여기에서 논의 된 방법은 PEFT의 유일한 데니즈가 아닙니다. 다른 것들이 포함됩니다 Qlora와 Qa-Lora; 접두사 튜닝; 프롬프트 조정; 그리고 어댑터 조정다른 것 중에서도.
‘업그레이드 가능한 로라’는 아마도 연금술 추구 일 것입니다. 확실히, 로라 모델러가 최신의 가장 큰 가중치 릴리스를 위해 이전 데이터 세트를 다시 끌어 내지 못하게하는 것은 즉시 아무것도 없습니다. Model 버전 간의 아키텍처 및 풍선 매개 변수의 생존 할 수있는 가중치 개정에 대한 가능한 프로토 타입 표준이 있다면 아직 문헌에서 나오지 않았으며 모델별로 데이터에서 계속 추출해야합니다. .
2025 년 1 월 30 일 목요일에 처음 출판되었습니다
게시물 모델 버전 업그레이드에서 살아남을 수있는 로라를 향해 먼저 나타났습니다 Unite.ai.