Stable Diffusion 3.5: 텍스트-이미지 AI의 아키텍처 발전

10월 25, 2024

203

stable-diffusion-3.5:-텍스트-이미지-ai의-아키텍처-발전 — Stable Diffusion 3.5: 텍스트-이미지 AI의 아키텍처 발전

안정성 AI 는 텍스트-이미지 AI 모델의 또 다른 발전을 보여주는 Stable Diffusion 3.5를 공개했습니다. 이번 릴리스는 귀중한 커뮤니티 피드백과 생성 AI 기술의 경계를 넓히려는 노력에 기반한 포괄적인 점검을 나타냅니다.

Stable Diffusion 3 Medium의 6월 출시 이후 Stability AI는 모델이 표준이나 커뮤니티 기대치를 완전히 충족하지 못했다는 점을 인정했습니다. 빠른 수정을 서두르는 대신 회사는 개발 프로세스 전반에 걸쳐 안전 조치를 구현하는 동시에 시각적 미디어를 변화시키려는 사명을 발전시킬 버전을 개발하는 데 중점을 두는 신중한 접근 방식을 취했습니다.

이전 버전에 비해 주요 개선 사항

새 릴리스에서는 다음과 같은 몇 가지 중요한 영역에서 상당한 개선이 이루어졌습니다.

향상된 프롬프트 준수: 이 모델은 훨씬 더 큰 모델의 기능에 필적하는 복잡한 프롬프트에 대한 이해도가 크게 향상된 이미지를 생성합니다.
건축 발전: 변환기 블록에 쿼리 키 정규화를 구현하면 훈련 안정성이 향상되고 미세 조정 프로세스가 단순화되었습니다.
다양한 출력 생성: 광범위한 즉각적인 엔지니어링 없이도 다양한 피부색과 특징을 나타내는 이미지를 생성하는 고급 기능입니다.
최적화된 성능: 특히 Turbo 변형에서 이미지 품질과 생성 속도가 크게 향상되었습니다.

생성 AI 회사 환경에서 Stable Diffusion 3.5를 차별화하는 것은 접근성과 성능의 독특한 조합입니다. 이번 릴리스는 기술 역량의 경계를 넓히는 동시에 광범위하게 액세스할 수 있는 창의적인 도구에 대한 Stability AI의 약속을 유지합니다. 이는 모델 제품군을 개인 제작자와 기업 사용자 모두를 위한 실행 가능한 솔루션으로 자리매김하고, 중간 규모 기업과 대규모 조직을 모두 지원하는 명확한 상용 라이선스 프레임워크를 기반으로 합니다.

안정 확산 출력(Stability AI)

모든 사용 사례에 적합한 세 가지 강력한 모델

안정 확산 3.5 대형

이번 출시의 플래그십 모델, 안정 확산 3.5 대형전문적인 이미지 생성 작업에 필요한 80억 개의 처리 능력 매개변수를 제공합니다.

주요 기능은 다음과 같습니다:

1메가픽셀 해상도의 전문가급 출력
정밀한 창의적 제어를 위한 뛰어난 신속한 준수
복잡한 이미지 컨셉을 처리하는 고급 기능
다양한 예술적 프로세스 전반에 걸친 강력한 성능

대형 터보

그만큼 대형 터보 변형은 효율적인 성능의 혁신을 나타내며 다음을 제공합니다.

단 4단계로 고품질 이미지 생성
속도 증가에도 불구하고 뛰어난 신속한 준수
비증류 모델 대비 경쟁력 있는 성능
생산 워크플로우를 위한 속도와 품질의 최적 균형

중형 모델

10월 29일 출시 예정인 25억 개의 매개변수를 갖춘 Medium 모델은 전문가 수준의 이미지 생성에 대한 액세스를 민주화합니다.

표준 소비자 하드웨어에서 효율적인 작동
0.25~2메가픽셀 해상도의 생성 기능
성능 향상을 위해 최적화된 아키텍처
다른 중형 모델에 비해 우수한 결과

각 모델은 이미지 품질과 신속한 준수에 대한 Stability AI의 높은 기준을 유지하면서 특정 사용 사례를 제공하도록 신중하게 배치되었습니다.

안정 확산 3.5 대형(안정성 AI)

차세대 아키텍처 개선

Stable Diffusion 3.5의 아키텍처는 이미지 생성 기술의 중요한 도약을 나타냅니다. 수정된 MMDiT-X 아키텍처의 핵심은 정교한 다중 해상도 생성 기능을 도입한 것으로, 특히 Medium 변형에서 두드러집니다. 이러한 아키텍처 개선을 통해 효율적인 추론 시간을 유지하면서 보다 안정적인 훈련 프로세스를 가능하게 하고 이전 반복에서 식별된 주요 기술 제한 사항을 해결합니다.

쿼리 키(QK) 정규화: 기술적 구현

QK 정규화는 모델의 트랜스포머 아키텍처에서 중요한 기술 발전으로 등장합니다. 이 구현은 훈련 중에 주의 메커니즘이 작동하는 방식을 근본적으로 변경하여 기능 표현을 위한 보다 안정적인 기반을 제공합니다. 주의 메커니즘에서 쿼리와 키 간의 상호 작용을 정규화함으로써 아키텍처는 다양한 규모와 도메인에서 보다 일관된 성능을 달성합니다. 이러한 개선은 모델을 특수 작업에 적용하는 복잡성을 줄여주므로 미세 조정 프로세스를 작업하는 개발자에게 특히 도움이 됩니다.

벤치마킹 및 성능 분석

성능 분석에 따르면 Stable Diffusion 3.5는 주요 지표 전반에 걸쳐 놀라운 결과를 달성했습니다. Large 변형은 합리적인 계산 요구 사항을 유지하면서 훨씬 더 큰 모델에 필적하는 신속한 준수 기능을 보여줍니다. 다양한 이미지 컨셉에 대한 테스트를 통해 특히 이전 버전에 도전했던 영역에서 일관된 품질 개선이 나타났습니다. 이러한 벤치마크는 안정적인 성능 지표를 보장하기 위해 다양한 하드웨어 구성에 걸쳐 수행되었습니다.

하드웨어 요구 사항 및 배포 아키텍처

배포 아키텍처는 변형마다 크게 다릅니다. 80억 개의 매개변수가 있는 대형 모델은 특히 고해상도 이미지를 생성할 때 최적의 성능을 위해 상당한 계산 리소스가 필요합니다. 이와 대조적으로 Medium 변형은 보다 유연한 배포 모델을 도입하여 전문가 수준의 출력 품질을 유지하면서 광범위한 하드웨어 구성에서 효과적으로 작동합니다.

안정 확산 벤치마크(안정성 AI)

결론

Stable Diffusion 3.5는 고급 기술 기능과 실용적인 접근성의 균형을 유지하면서 생성 AI 모델의 진화에 있어 중요한 이정표를 나타냅니다. 이번 릴리스는 포괄적인 안전 조치를 구현하고 이미지 품질과 윤리적 고려 사항 모두에 대한 높은 기준을 유지하면서 시각적 미디어를 변화시키려는 Stability AI의 노력을 보여줍니다. 생성 AI가 창의적인 기업 워크플로를 지속적으로 형성함에 따라 Stable Diffusion 3.5의 강력한 아키텍처, 효율적인 성능 및 유연한 배포 옵션은 AI 기반 이미지 생성을 활용하려는 개발자, 연구원 및 조직을 위한 귀중한 도구로 자리매김하고 있습니다.

게시물 Stable Diffusion 3.5: 텍스트-이미지 AI의 아키텍처 발전 처음 등장한 Unite.AI.

News Week
Magazine PRO

Company

Stable Diffusion 3.5: 텍스트-이미지 AI의 아키텍처 발전

이전 버전에 비해 주요 개선 사항