인기있는 이미지 또는 비디오 생성 도구에 자신을 배치하고 싶지만, 기초 모델이 당신을 인식 할만 큼 아직 유명하지는 않다면 – 당신은 훈련해야합니다. 낮은 순위 적응 (LORA) 자신의 사진 모음을 사용하는 모델. 이 개인화 된 LORA 모델을 사용하면 생성 모델이 향후 출력에 신원을 포함시킬 수 있습니다.
이것은 일반적으로 호출됩니다 사용자 정의 이미지 및 비디오 합성 연구 부문에서. 2022 년 여름에 안정적인 확산이 출현 한 지 몇 달이 지났으며 Google Research의 Dreambooth 프로젝트는 열광 자들에 의해 곧 조정되어 커뮤니티에 공개 된 폐쇄 소스 스키마에서 고 가가 바이트 사용자 정의 모델을 제공합니다.
LORA 모델은 신속하게 추적했으며 품질이 최소화되거나 더 가벼운 파일 크기를 제공하여 안정적인 확산 및 그 후임자를위한 사용자 정의 장면을 빠르게 지배하고 나중에 모델을 신속하게 지배했습니다. 유량그리고 이제 새로운 생성 비디오 모델과 같은 새로운 생성 비디오 모델 후유아 비디오 그리고 WAN 2.1.
헹구고 반복하십시오
문제는 우리가 전에 언급했듯이새로운 모델이 나올 때마다 새로운 세대의 LORA를 훈련 해야하는데, 이는 LORA 프로듀서에 대한 상당한 마찰을 나타내는데, 이는 모델 업데이트 또는 인기있는 새로운 모델이 다시 시작해야한다는 것을 알기 위해 다양한 사용자 정의 모델을 훈련시킬 수 있습니다.
따라서 제로 샷 사용자 정의 접근법은 최근 문헌에서 강력한 가닥이되었습니다. 이 시나리오에서는 데이터 세트를 큐 레이트하고 자신의 하위 모델을 훈련시켜야하는 대신, 세대에 주입 할 대상의 하나 이상의 사진을 제공하고 시스템은 이러한 입력 소스를 혼합 출력으로 해석합니다.
아래에서 우리는 Face-Swapping 외에이 유형의 시스템을 봅니다 (여기에서 양모) 또한 ID 값을 스타일 전송에 포함시킬 수도 있습니다.

Pulid 시스템을 사용한 안면 ID 전이의 예. 출처 : https://github.com/tothebeginning/pulid?tab=readme-ov-file
LORA와 같은 노동 집약적이고 깨지기 쉬운 시스템을 일반 어댑터로 교체하는 동안 좋습니다.그리고 인기가 있습니다) 아이디어, 그것은 또한 도전적입니다. LORA 훈련 과정에서 얻은 세부 사항과 적용 범위에 대한 극도로주의는 원샷에서 모방하기가 매우 어렵습니다. IP 어래지터-포괄적 인 ID 이미지 세트를 분석 할 때의 사전 이점없이 LORA의 세부 사항과 유연성과 일치하는 스타일 모델.
hyperlora
이를 염두에두고, 실제 로라 코드를 생성하는 시스템을 제안하는 Bytedance의 흥미로운 새 논문이 있습니다. 날개현재 제로 샷 솔루션 중에서 독특합니다.

왼쪽에는 입력 이미지가 있습니다. 그 바로, 소스 이미지를 기반으로 한 유연한 범위의 출력 범위는 배우 Anthony Hopkins와 Anne Hathaway의 심해를 효과적으로 생성합니다. 출처 : https://arxiv.org/pdf/2503.16944
논문은 다음과 같습니다.
‘IP-Adapter와 같은 어댑터 기반 기술은 기초 모델 매개 변수를 동결하고 플러그인 아키텍처를 사용하여 제로 샷 추론을 가능하게하지만 종종 초상화 합성 작업에서 간과되지 않는 자연과 진정성이 부족합니다.
‘[We] 적응 형 플러그인 네트워크를 사용하여 LORA 가중치를 생성하여 LORA의 우수한 성능을 어댑터 체계의 제로 샷 기능과 병합하는 매개 변수 효율적인 적응성 생성 방법, 즉 Hyperlora를 소개합니다.
‘신중하게 설계된 네트워크 구조 및 훈련 전략을 통해 우리는 높은 사진, 충실도 및 편집성으로 제로 샷 개인화 된 초상화 생성 (단일 및 다중 이미지 입력을 지원)을 달성합니다.’
가장 유용하게, 훈련 된 시스템은 기존과 함께 사용할 수 있습니다. Controlnet세대의 높은 수준의 특이성 활성화 :

Timothy Chalomet은 Hyperlora의 3 개의 입력 사진을 기반으로 ‘The Shining'(1980)에서 예기치 않게 쾌활한 외관을 만들고, 컨트롤 넷 마스크는 출력을 정의합니다 (텍스트 프롬프트와 함께).
새로운 시스템이 최종 사용자가 제공 할 것인지 여부에 관해서는 Bytedance 가이 점에서 합리적인 기록을 가지고 있으며, 잠복 립싱크 프레임 워크, 방금 방금 출시되었습니다 무한 프레임 워크.
부정적으로,이 논문은 공개 의도를 나타내지 않으며, 작품을 재현하는 데 필요한 훈련 자원은 너무 엄청나 어서 애호가 커뮤니티가 재현하는 데 어려움을 겪을 수 있습니다 (Dreambooth와 마찬가지로).
그만큼 새로운 종이 제목이 있습니다 Hyperlora : 초상화 합성을위한 매개 변수 효율적인 적응 형성 생성Bytedance와 Bytedance의 전용 지능형 창조 부서의 7 명의 연구원에서 나왔습니다.
방법
새로운 방법은 안정적인 확산 잠재 확산 모델 (LDM)을 사용합니다. SDXL 기초 모델로서 원칙은 일반적으로 확산 모델에 적용 할 수있는 것처럼 보이지만 (그러나 교육 요구는 아래 참조 – 생성 비디오 모델에 적용하기 어려울 수 있음).
hyperlora의 훈련 과정은 3 단계로 나뉘며 각각은 학습 된 사람들의 특정 정보를 분리하고 보존하도록 설계되었습니다. 무게. 이 고리가 풍부한 절차의 목표는 신속하고 안정적인 수렴을 달성하는 것과 동시에 의류 또는 배경과 같은 관련없는 요소에 의해 신원 관련 기능이 오염되는 것을 방지하는 것입니다.

Hyperlora의 개념적 스키마. 이 모델은 신원 기능을 위해 ‘하이퍼 ID-Lora’로 나뉘어져 있으며 배경과 의류의 경우 ‘하이퍼베이스 로라’로 나뉩니다. 이 분리는 기능 누출을 줄입니다. 훈련 중에 SDXL베이스 및 인코더가 얼어 붙고 Hyperlora 모듈 만 업데이트됩니다. 추론에 따르면, 개인화 된 이미지를 생성하려면 ID-Lora 만 필요합니다.
첫 번째 단계는 전적으로 학습에 중점을 둡니다 ‘베이스 로라’ (위의 스키마 이미지의 왼쪽 하단). 신원과 관련된 세부 사항을 캡처합니다.
이러한 분리를 시행하기 위해 연구원들은 의도적으로 훈련 이미지에서 얼굴을 흐리게하여 모델이 배경, 조명 및 포즈와 같은 것들에 걸리지 만 정체성이 아닙니다. 이 ‘워밍업’단계는 필터 역할을하여 정체성 별 학습이 시작되기 전에 저수준의 산만 함을 제거합니다.
두 번째 단계에서 ‘Id-lora’ (위의 스키마 이미지의 왼쪽)가 소개됩니다. 여기서 얼굴 정체성은 두 가지 평행 경로를 사용하여 인코딩됩니다. 클립 비전 변압기 (클립 vit) 구조적 특징 및 Insightface Antelopev2 인코더 보다 추상적 인 정체성 표현.
과도기적 접근
클립 기능은 모델이 빠르게 수렴하지만 위험에 도달하는 데 도움이됩니다 지나치게 적합합니다반면 영양 내장은 더 안정적이지만 훈련이 느리다. 따라서 시스템은 불안정성을 피하기 위해 클립에 더 크게 의존하고 영양에서 점차적으로 의존하여 시작합니다.
마지막 단계에서는 클립 유도주의 레이어가 있습니다 언 전적으로. Antelopev2- 연결된주의 모듈만이 훈련을 계속하여 모델이 이전에 배운 구성 요소의 충실도 또는 일반성을 저하시키지 않으면 서 정체성 보존을 개선 할 수 있습니다.
이 위상 구조는 본질적으로 시도한 것입니다 해고하다. 정체성과 비 식별 기능이 먼저 분리 된 다음 독립적으로 개선됩니다. 정체성 드리프트, 편집 가능성이 낮고 부수적 인 특징에 대한 과결한 개인화의 일반적인 실패 모드에 대한 체계적인 반응입니다.
당신이 체중하는 동안
클립 VIT와 Antelopev2가 주어진 초상화에서 구조적 및 정체성 특이 적 특징을 추출한 후, 얻은 특징은 인식 리샘플러 (위에서 언급 한 IP-Adapter 프로젝트에서 파생)-기능을 컴팩트 한 세트에 매핑하는 변압기 기반 모듈 계수.
두 개의 개별 리샘플러가 사용됩니다 : 하나는 기본-로라 가중치 (배경 및 비 식별 요소를 인코딩) 및 ID- 로라 가중치 (얼굴 정체성에 중점을 둔)를위한 것입니다.

Hyperlora 네트워크의 스키마.
그런 다음 출력 계수는 학습 된 LORA 기본 행렬 세트와 선형으로 결합하여 미세 조정 기본 모델.
이 접근법을 통해 시스템은 개인화 된 가중치를 생성 할 수 있습니다 전적으로 즉시이미지 인코더와 경량 투영 만 사용하면서도 LORA의 기본 모델의 동작을 직접 수정하는 능력을 활용합니다.
데이터 및 테스트
Hyperlora를 훈련시키기 위해 연구원들은 laion-2b 데이터 세트 (현재는 원래 2022 안정 확산 모델의 데이터 소스로 가장 잘 알려져 있음).
Insightf 그런 다음 이미지에 주석을 달았습니다 블립 -2 캡션 시스템.
관점에서 데이터 확대이미지는 얼굴 주위에 무작위로 자르고 있었지만 항상 얼굴 영역에 초점을 맞췄습니다.
각 LORA 순위는 교육 설정에서 사용 가능한 메모리에 자신을 수용해야했습니다. 따라서 ID-Lora의 Lora 순위는 8로, Base-Lora의 순위는 4로, 8 단계 그라디언트 축적 더 큰 것을 시뮬레이션하는 데 사용되었습니다 배치 크기 하드웨어에서 실제로 가능했던 것보다.
연구원들은 각각 20K, 15K 및 55K 반복에 대해 각각 기본-로라, ID- 로라 (클립) 및 ID-LORA (Identity Embedding) 모듈을 순차적으로 훈련시켰다. ID-Lora 교육 중에는 0.9, 0.05 및 0.05의 확률로 세 가지 컨디셔닝 시나리오에서 샘플링했습니다.
이 시스템은 Pytorch 및 Diffusers를 사용하여 구현되었으며 전체 교육 프로세스는 16 NVIDIA A100 GPU*에서 약 10 일 동안 실행되었습니다.
Comfyui 테스트
저자는 워크 플로를 만들었습니다 Comfyui Hyperlora를 세 가지 라이벌 방법과 비교하는 합성 플랫폼 : Instantid; 앞서 언급 한 IP 자체의 형태로 IP-Adapter-faceid-portrait 뼈대; 위의 인용 된 펄리. 일관된 씨앗, 프롬프트 및 샘플링 방법이 모든 프레임 워크에서 사용되었습니다.
저자는 어댑터 기반 (LORA 기반이 아닌) 방법에 대해 일반적으로 더 낮은 것이 필요하다고 지적합니다. 분류기가없는 지침 (CFG) 스케일, LORA (Hyperlora 포함)는 이와 관련하여 더 허용됩니다.
공정한 비교를 위해 연구원들은 오픈 소스 SDXL 미세 조정 체크 포인트 변형을 사용했습니다. Leosam의 Hello World 시험 전반에 걸쳐. 정량 테스트의 경우 Unsplash-50 이미지 데이터 세트가 사용되었습니다.
메트릭
충실도 벤치 마크의 경우, 저자는 클립 이미지 임베딩 (클립 -I)과 별도의 ID 임베딩 (ID SIM) 사이의 코사인 거리를 사용하여 얼굴 유사성을 측정했습니다. 커리큘럼훈련 중에 사용되지 않은 모델.
각 방법은 테스트 세트에서 ID 당 4 개의 고해상도 헤드 샷을 생성 한 다음 결과가 평균화되었습니다.
신원 모듈이 있거나없는 출력 사이의 Clip-I 점수를 비교하여 편집 가능성이 평가되었습니다 (신원 제약이 이미지를 얼마나 많이 변경했는지 확인). 클립 이미지 텍스트 정렬 (Clip-T)을 측정하여 10 개의 신속한 변형을 덮습니다. 헤어 스타일,,, 부속품,,, 의류그리고 배경.
저자는 The를 포함시켰다 arc2face 비교의 기초 모델 – 고정 캡션 및 자른 안면 지역에 대해 훈련 된 기준선.
hyperlora의 경우, 하나는 ID- 로라 모듈 만 사용하고, 다른 하나는 ID- 및베이스 로라를 사용하는 두 가지 변형을 테스트했으며, 후자는 0.4로 가중치를 부여했습니다. 베이스 로라는 충실도를 향상 시켰지만 편집 가능성이 약간 제한되었습니다.

초기 정량적 비교를위한 결과.
정량적 테스트 중에서 저자는 다음과 같이 언급합니다.
‘Base-Lora는 충실도를 향상시키는 데 도움이되지만 편집 가능성을 제한합니다. 우리의 디자인은 이미지를 다른 loras로 분리하지만 상호 누출을 피하기는 어렵습니다. 따라서 다른 응용 프로그램 시나리오에 적응하도록 Base-Lora의 무게를 조정할 수 있습니다.
‘우리의 Hyperlora (Full and Id)는 최고 및 두 번째로 좋은 얼굴 충실도를 달성하는 반면 Instantid는 얼굴 ID 유사성이 우수하지만 더 낮은 얼굴 충실도를 보여줍니다.
‘얼굴 ID 유사성이 더 추상적이고 얼굴 충실도가 더 자세한 내용을 반영하기 때문에이 두 가지 측정 항목은 충실도를 평가하기 위해 함께 고려해야합니다.’
질적 테스트에서, 필수 제안과 관련된 다양한 트레이드 오프가 앞서 나옵니다 (정 성적 결과를 위해 모든 이미지를 재현 할 공간이없고, 더 나은 해상도로 더 많은 이미지를 위해 더 많은 이미지를 참조하십시오.

질적 비교. 위에서 아래로, 사용 된 프롬프트는 ‘흰 셔츠’와 ‘늑대 귀'(추가 예를 보려면 종이 참조)입니다.
여기서 저자는 다음과 같습니다.
‘IP-Adapter와 InstantId에 의해 생성 된 초상화의 피부는 AI 생성 텍스처를 가지고 있습니다. [oversaturated] 그리고 사진과는 거리가 멀다.
‘어댑터 기반 방법의 일반적인 단점입니다. Pulid는 기본 모델에 대한 침입을 약화시키고, IP 어드데이터를 능가하고 Instantid를 능가하지만 여전히 흐릿하고 세부 사항이 부족 하여이 문제를 향상시킵니다.
대조적으로, LORA는 추가주의 모듈을 도입하는 대신 기본 모델 가중치를 직접 수정하며, 일반적으로 매우 상세하고 사진적인 이미지를 생성합니다. ‘
저자는 Hyperlora가 외부주의 모듈에 의존하는 대신 기본 모델 가중치를 직접 수정하기 때문에 전통적인 LORA 기반 방법의 비선형 용량을 유지하여 충실도의 이점을 제공하며 동공 색상과 같은 미묘한 세부 사항을 개선 할 수 있습니다.
질적 비교에서,이 논문은 Hyperlora의 레이아웃이 더 일관적이고 프롬프트와 더 잘 맞았으며 PULID에 의해 생성 된 것과 유사하지만 InstantID 또는 IP 어드플레이터보다 눈에 띄는 것과 유사하다고 주장합니다 (때로는 부 자연스러운 조성물을 따르거나 생성되지 않은 경우가 발생하지 않았다).

Hyperlora를 사용한 Controlnet 세대의 추가 예.
결론
지난 18 개월 동안 다양한 원샷 커스터마이징 시스템의 일관된 스트림은 이제 절망의 품질을 취했습니다. 최첨단에 주목할만한 제품은 거의 없습니다. 그리고 그것을 조금 발전시킨 사람들은 엄청난 훈련 요구 및/또는 매우 복잡하거나 자원 집약적 인 추론 요구를 가진 경향이 있습니다.
Hyperlora의 자체 훈련 체제는 최근의 많은 유사한 항목만큼 Gulp를 유발하는 것만 큼 적어도 하나는 처리 할 수있는 모델로 마무리합니다 이것에 상자에서 사용자 정의.
이 논문의 보충 자료에서, 우리는 Hyperlora의 추론 속도가 IP 어래지 어보다 낫지 만 다른 두 가지 방법보다 나쁘다는 점에 주목합니다.이 수치는 NVIDIA V100 GPU를 기반으로한다는 점에 주목합니다.이 수치는 NVIDIA V100 GPU를 기반으로하며, 이는 전형적인 소비자 하드웨어 (NVIDIA GPU가 V100의 최대 32GB의 NVIDIA GPU가 일치하거나 초과 할 수는 없습니다.

밀리 초의 경쟁 방법의 추론 속도.
Hyperlora의 중요한 하드웨어 요구 사항은 진정한 장기 단일 기초 모델을 생산할 수있는 능력과 상충되기 때문에 제로 샷 사용자 정의는 실질적인 관점에서 미해결 문제로 남아 있다고 말하는 것은 공평합니다.
* 사용 된 모델에 따라 640GB 또는 1280GB의 VRAM을 나타냅니다 (이것은 지정되지 않음)
2025 년 3 월 24 일 월요일에 처음 출판되었습니다
게시물 생성 AI에서 제로 샷 사용자 정의에 대한 투쟁 먼저 나타났습니다 Unite.ai.