미국의 새로운 연구에 따르면 미세 조정 자체 데이터를 기반으로 하는 AI 기반 모델은 원본 모델의 기능을 축소하거나 손상시킬 필요가 없으며 비교적 간단한 수정으로 원본 모델의 기능을 복원할 수 있을 뿐만 아니라 실제로 개선하다 (이미 훈련된) 모델이 생성하려는 출력의 품질.
이에 대한 의미는 생성 시스템 ‘서비스형’ 임대의 금전적 보상에 관심을 집중하고 있는 거대 기술 기업뿐만 아니라 점점 더 많은 ‘코드 절단기’ 애호가들에게도 중요합니다. 오픈 소스 모델 다운로드 및 사용자 정의개인화된 AI 글쓰기 및 이미지/비디오 생성 시스템에 더 저렴하고 더 적은 제한으로 액세스할 수 있도록 합니다.
논문의 저자는 2023년에 분명히 상당한 진전을 이루는 방법의 잠재력에 대한 열정을 보여주는 것을 두려워하지 않습니다. 제출 전체적인 전송: 부분 대상 데이터를 사용한 무중단 미세 조정을 향하여 (새 논문의 많은 기고자들과 공동 집필).
그들은 다음과 같이 말합니다.
‘그만큼 [findings] 격려적이고 깊은 의미를 가지고 있습니다! 이는 간단한 후처리 교정이 부재 클래스에서 미세 조정된 모델의 열등한 정확도를 잠재적으로 해결할 수 있음을 의미하며 사전 훈련된 모델의 기능을 다시 가져오면서 모든 클래스에 걸쳐 향상된 기능 품질을 공개합니다.’
곧 새로운 작품을 살펴보도록 하겠습니다. 먼저, 어떤 문제를 해결하려고 하는지 살펴보겠습니다.
중요한 이유
Stability.ai 출시 이후 광범위한 미세 조정의 첫 번째 물결이 일어났습니다. 안정적인 확산 2002년 8월의 텍스트-이미지 모델. 하이퍼스케일의 하위 집합에 대해 훈련된 초기 모델 라리온 데이터세트는 누구나 다운로드할 수 있도록 공개되었습니다.
그러나 삽입을 원하는 사용자는 특정한 콘텐츠(예: 자신의 정체성, 예술 스타일 또는 유명인의 표현)를 Stable Diffusion의 특별한 생성 특성으로 변환하려면 다음과 같은 기술이 필요했습니다. 드림부스 – 추정 Google Research 맞춤설정 방법이를 통해 사용자는 미세 조정을 통해 새로운 데이터를 무료로 사용 가능한 모델로 훈련할 수 있었습니다.
이런 식으로 특정 인물이나 맞춤형 아트 스타일을 만드는 데 매우 능숙한 모델의 복사본을 얻을 수 있었지만 이제 좀 더 일반적인 사용을 위해 ‘타협’되었습니다..
즉, 서로 다른 세 사람을 정확하게 묘사할 수 있도록 Stable Diffusion을 미세 조정하려면 필연적으로 다음을 만들어야 했습니다. 세 가지 다른 모델각각 약 2-4GB 이상입니다.
이러한 모델을 미세 조정하려는 시도 잠시 시간이 지나면 모델의 일반적인 성능이 더욱 저하될 뿐만 아니라 이전 미세 조정 세션의 출력에도 부정적인 영향을 미칠 수 있습니다.
어쨌든 유명인 DreamBooth 모델은 주로 civit.ai 도메인에서 모이면서 곧 인터넷에서 확산될 것입니다. 결국에는 다음과 같은 덜 번거로운 방법이 사용됩니다. 낮은 순위 적응 (LoRA)의 인기가 미세 조정을 추월했습니다(LoRA 출력이 전체 미세 조정만큼 효과적인지는 여전히 남아 있음). 논쟁의 여지가 있는그리고 NVIDIA는 그 이후로 오픈 소스 분명히 더 효과적인 접근 방식은 도라).
LoRA는 다음 범주에 속합니다. 매개변수 효율적인 미세 조정 (PEFT)는 모델의 훈련된 매개변수의 하위 집합에만 영향을 미칩니다.
일부 사용자는 오픈 소스 Stable Diffusion의 근본적인 특성을 바꾸고 싶어했습니다. 검문소수천 장의 이미지를 미세 조정합니다.
이는 효과적으로 대안을 만들어냈습니다. 기초 모델사용자가 훈련하려는 도메인(예: 특정 예술 스타일) 전용입니다. 이를 위해 LoRA와 같은 ‘경량’ 방법은 덜 효과적일 가능성이 높습니다. 가중치 모델의 극심한 새로운 훈련 데이터에 대한 편향.
로컬 채팅
최근 관심이 높아지면서 대규모 언어 모델 (LLM), ChatGPT와 같은 API 기반 서비스의 판매점(및 관련 비용) 증가를 피하려는 사용자가 점점 더 많아지고 있습니다. 다운로드 및 미세 조정이 시작되었습니다. 효과적인 오픈 소스 모델 라마 3처럼다른 많은 것 중에서.
여기에서도, LoRA를 사용할 수 있습니다. 전체 체크포인트를 미세 조정하는 대신 우리는 전에 다투었다 미세 조정은 특정 사용자의 요구에 맞는 LLM을 생성하는 탁월한 방법입니다. 미세 조정은 하드웨어 요구 사항이 더 크고 시간도 더 오래 걸릴 수 있지만 사용자가 모델에 동화하기를 원하는 새로운 데이터에 대한 더 깊은 일반화를 제공합니다.
미세 조정의 문제점은 위에서 언급한 것처럼 나중에 추가 데이터에 대해 점진적으로 학습할 수 없는 파괴적인 프로세스라는 것입니다.
모델에 주입되는 특징과 편향 데이터 세트의 원래 가중치 균형을 뒤엎습니다.이는 모델이 해당 사용자 기여 데이터를 반영할 가능성이 지나치게 높거나 최소한 원래 기반 모델보다 전반적으로 성능이 저하될 것임을 의미합니다(새 데이터와 관련 없는 작업에서).
이 문제는 다음과 같은 방법으로 어느 정도 해결할 수 있습니다. 동결 훈련 중 모델의 특정 부분; 그러나 이로 인해 아키텍처의 고정된 부분이 모델 내부에서 새로 미세 조정된 데이터로 잘 일반화되지 않을 수 있으므로 일반적인 기능이 저하될 수 있습니다. 잠재 공간.
따라서 미세 조정된 모델의 원래 기능을 유지하면서 미세 조정 데이터를 기반으로 출력을 생성하는 모델의 기능을 유지하는 더 쉬운 방법이 있다면 정말 좋을 것입니다.
이러한 개발은 로컬 LLM 및 기타 유형의 생성 모델을 사용하는 애호가 및 얼리 어답터부터 FAANG 수준(매우 값비싼 AI 모델을 별도의 작업 없이 반복적으로 비파괴적으로 개선할 수 있는 경우)까지 잠재적인 사용자 범위에 걸쳐 유익할 것입니다. 멀티백만 달러의 비용 추가 데이터를 사용하여 훈련을 다시 시작하는 것입니다).
후처리 교정
이것은 우리를 다시 새 종이이는 호출됩니다. 미세 조정은 괜찮습니다(보정된 경우).오하이오 주립대학교, 위스콘신 대학교 매디슨 대학교, Rensselar Polytechnic Institute의 연구원 11명이 참여하고 있습니다.
연구자들은 미세 조정 시 기초 모델에서 무엇이 손상되는지 정확히 알아내려고 했습니다. 그들은 ‘이전과 이후’ 모델의 유일한 주요 차이점은 다음과 같다는 결론을 내렸습니다. 로짓 저울 미세 조정 클래스와 모델의 원래 클래스 전반에 걸쳐 큰 불일치가 나타납니다.
로짓 링크는 성공 확률을 예측합니다. 논리적 회귀 추정된 값(매우 정확할 수 있음)을 0 또는 1로 변환하는 프로세스입니다.
저자는 이러한 결함이 교정 기술을 통해 거의 자연스럽게 되돌릴 수 있다는 사실을 발견했을 뿐만 아니라, 사후에 수정은 실제로 미세 조정 데이터의 출력 품질을 향상시킵니다. 따라서 이 기술을 사용하면 기초 모델의 원래 기능을 얻을 수 있을 뿐만 아니라 미세 조정된 데이터를 더 효과적으로 통합할 수 있습니다.
(논문에서는 전망을 조사하지 않지만 이 기술은 모델이 여러 번 미세 조정될 수 있고 여전히 효과적일 수 있음을 의미합니다.)
미세 조정 후 모델 손상을 조사한 결과를 논의하면서 저자는 다음과 같이 말합니다.
놀랍게도 우리는 미세 조정된 모델이 다른 클래스 간의 관계를 잊지도 않고 이러한 클래스를 인식하기 위해 기능을 저하시키지도 않는다는 사실을 발견했습니다.
‘대신, 미세 조정 모델은 미세 조정 중에 누락된 경우에도 이러한 다른 클래스에 대해 더 차별적인 기능을 생성하는 경우가 많습니다!
‘[What] 정확도가 정말 떨어지는 것은 미세 조정 클래스와 다른 클래스 간의 로짓 척도가 일치하지 않기 때문입니다. [classes]이는 간단한 사후 처리 교정으로 사전 훈련된 모델의 기능을 다시 가져오는 동시에 모든 클래스에 대한 기능 개선을 공개할 수 있음을 의미합니다.’
저자는 이 이론에 대한 테스트 결과를 다음과 같이 재현 가능하게 만들었습니다. GitHub 저장소.
조사 결과, 미세 조정으로 인해 손상되는 기초 모델 아키텍처의 유일한 부분은 다음과 같습니다. 이진 분류기이는 다음과 같은 클래스를 잘못 분류합니다. 결석한 원본 모델에서는 미세 조정 클래스로 사용됩니다.
논문에는 다음과 같이 명시되어 있습니다*:
‘[By] 존재하지 않는 모든 클래스의 로짓에 교정 바이어스 인자를 추가합니다. [4, 40 ]미세 조정된 모델은 부재 클래스 정확도를 성공적으로 되찾고 다운스트림에서 상당한 전반적인 개선을 얻을 수 있습니다. [domain].
‘결과적인 성과는 강력한 기준선을 능가합니다. [전체적인 전송 – 이 문서의 기반이 되는 문서 ]ImageNet 및 그 변형을 포함한 많은 벤치마크에서[[이미지넷, ImageNet-R(종료), ImageNet-S(케치) ], 사무실-집그리고 VTAB, 복잡한 훈련과 하이퍼파라미터 설정 없이.’
저자는 보정 후 미세 조정 모델의 향상된 성능을 ‘예기치 않은 양성 동작’으로 분류하고 기본 확률적 경사하강법 (SGD) 최적화 프로그램을 사용하면 다음과 같이 널리 사용되는 현재 최적화 프로그램보다 더 나은 결과를 얻을 수 있습니다. 아담.
‘아직,’ 그들은 주목한다 ‘충분히 작은 학습률과 체중 감쇠를 통해 양성 행동이 나타나고 유지됩니다.’
사소한 수리
미세 조정으로 인한 로짓 불일치를 복구하기 위해 저자는 다음을 빌렸습니다. 기술 ~에서 제로샷 학습const 추가 결석한 모든 클래스의 로짓에 개미 요소를 적용합니다. 이로 인해 새로운 분류 규칙이 생성됩니다.
저자는 이 프로세스가 무시된 부재 클래스를 미세 조정된 클래스와 동일한 예측 품질로 ‘승격’시켜 원래 성능을 복원하고 추론 시 ‘추가된’ 데이터의 성능을 향상시킨다는 점에 주목합니다.
그들은 사후 처리 보정이 ‘잠재적으로 모든 모델에 적용 가능’하며 레이어(예: 분류자 및 백본) 동결을 통해 기초 모델 무결성을 유지하려는 방법이 제안된 접근 방식에 비해 점수가 낮다는 점을 관찰했습니다. .
결론
이번 협력을 통해 얻은 결과는 의미 있는 것으로 보입니다. 하이퍼스케일 데이터세트에서 AI 모델을 훈련하는 것은 여객기의 이륙과 유사한 엄청난 노력입니다. 훈련을 중단할 수 있고 현재 가중치를 주기적으로 저장하여(상당한 저장 비용으로) 피해를 완화할 수 있지만 훈련 중단을 허용하기 위해 실행 후 결과를 변경하기 위해 할 수 있는 일은 상대적으로 거의 없습니다.
이 연구에서 인상적인 점은 연구원들이 일반 AI 모델 훈련의 기본 원리를 발견한 것 같고, 그들의 솔루션이 놀라울 정도로 훌륭하다는 것입니다.
미세 조정 후 기초 모델 정확도를 유지할 수 있다는 경제적 의미도 중요합니다. 지금까지 수백만 달러 모델의 단점을 해결하는 가장 일반적인 방법은 추론 시 출력을 필터링하거나 모델에서 명백한 아킬레스건을 피하기 위해 추론을 제어하는 것이었습니다.
또한 이러한 기술은 이론적으로 출력 품질 향상과 함께 소비자 수준에서 미세 조정된 생성 모델의 기능을 크게 향상시킬 수 있습니다.
* 저자의 인라인 인용을 하이퍼링크로 전환했습니다.
2024년 10월 1일 화요일 첫 게시
게시물 AI 모델 미세 조정으로 인한 피해는 쉽게 복구될 수 있다는 연구 결과가 나왔습니다. 처음 등장한 Unite.AI.