AI 이미지 생성기는 과거를 어떻게 상상합니까? 새로운 연구에 따르면 스마트 폰을 18 세기로 떨어 뜨리고 1930 년대 장면에 랩톱을 삽입하고 19 세기 주택에 진공 청소기를 배치하여 이러한 모델이 역사를 상상하는 방법과 상황에 맞는 역사적 정확성을 전혀 할 수 있는지에 대한 의문을 제기합니다.
2024 년 초, Google의 이미지 생성 기능 쌍둥이 자리 멀티 모달 AI 모델은 부과에 대한 비판을 받았다 부적절한 맥락에서 인구 통계 학적 공정성출처가 거의없는 2 차 세계 대전 독일 군인 생성과 같은 :
2024 년 Google의 Gemini Multimodal 모델에 의해 구상 된 인구 통계 학적으로 불가능한 독일 군인. 출처 : Gemini AI/Google Via 가디언
이것은 구제 노력이 바뀌는 예였습니다 편견 AI 모델에서 역사적 맥락을 고려하지 못했습니다. 이 경우 문제는 곧 해결되었습니다. 하지만, 확산 기반 모델은 현대적이고 역사적 측면과 인공물을 혼란스럽게하는 역사의 버전을 생성하기 쉽습니다.
이것은 부분적으로 때문입니다 녹채훈련 데이터에 자주 나타나는 품질이 모델의 출력에서 융합되는 경우. 예를 들어, 스마트 폰과 같은 현대적인 객체가 종종 데이터 세트에서 대화하거나 듣는 행위와 함께 발생하는 경우, 모델은 프롬프트가 역사적 설정을 지정하는 경우에도 해당 활동을 현대 장치와 연관시키는 법을 배울 수 있습니다. 일단 이러한 협회가 모델에 포함되면 내부 표현활동을 현대의 맥락과 분리하기가 어려워서 역사적으로 부정확 한 결과를 초래합니다.
잠복 확산 모델에서 얽힌 역사적 세대의 현상을 조사한 스위스의 새로운 논문은 AI 프레임 워크가 사진을 만들 수 있습니다 그럼에도 불구하고 역사적 인물을 역사적 방식으로 묘사하는 것을 선호합니다.
새로운 논문에서, 프롬프트의 LDM을 통한 다양한 표현“친구와 함께 웃고있는 사람의 사진 이미지 [the historical period]’, 각 기간이 각 출력에 표시됩니다. 우리가 볼 수 있듯이, 시대의 매체는 내용과 관련이 있습니다. 출처 : https://arxiv.org/pdf/2505.17064
프롬프트를 위해 ‘친구와 함께 웃고있는 사람의 사진 이미지 [the historical period]’세 가지 테스트 된 모델 중 하나는 종종 부정적인 프롬프트를 무시합니다. ‘단색화’ 대신 1950 년대와 1970 년대부터 셀룰로이드 필름의 음소거 된 톤을 모방하는 등 지정된 시대의 시각 매체를 반영하는 색 치료를 사용합니다.
생성 용량을 위해 세 가지 모델을 테스트 할 때 구식주의 (목표 기간이 아닌 것, 또는 ‘시간이 오래’ – 대상 기간의 것일 수 있습니다. 미래 그들은 과거뿐만 아니라 현대적인 맥락과 장비와 시대를 초월한 활동 (예 : ‘노래’또는 ‘요리’)을 혼란시키는 일반적인 성향을 발견했습니다.
이전 세기에 완벽하게 유효한 다양한 활동은 요청 된 이미지의 정신에 대항하여 현재 또는보다 최근의 기술 및 도구로 묘사됩니다.
스마트 폰은 사진의 관용구와 다른 많은 역사적 맥락에서 분리하기가 특히 어렵다는 점에 주목할 만하다. 일반적인 크롤링:
플럭스 생성 텍스트-이미지 모델에서 커뮤니케이션 및 스마트 폰은 역사적 맥락이 허용되지 않더라도 엄격하게 관련된 개념입니다.
문제의 범위를 결정하고 미래의 연구 노력을이 특정 버그 부류로 발전시키기 위해 새로운 논문의 저자는 생성 시스템을 테스트 할 맞춤형 데이터 세트를 개발했습니다. 잠시 후, 우리는 이것을 살펴볼 것입니다 새로운 작품제목이 있습니다 합성 기록 : 확산 모델에서 과거의 시각적 표현 평가취리히 대학교의 두 연구원에서 왔습니다. 데이터 세트와 코드는 공개적으로 제공됩니다.
깨지기 쉬운 ‘진실’
논문의 주제 중 일부는 인종의 과소 평가와 같은 문화적으로 민감한 문제에 대한 접촉 그리고 성별 역사적 표현에서. 심한 불평등 한 제 3 제국에서 Gemini의 인종 평등 부과는 터무니없고 역사적 개정을 모욕적이지만, ‘전통적인’인종 표현 (확산 모델이 ‘업데이트 된’)은 종종 효과적으로 ‘whitewash’역사를 발휘할 수 있습니다.
최근에 많은 역사적 쇼와 같은 브리거 턴미래의 훈련 데이터 세트에 영향을 줄 수있는 방식으로 역사적 인구 통계 학적 정확성을 흐리게하여 LLM 생성 기간 이미지를 전통적인 표준에 맞추기위한 노력을 복잡하게 만듭니다. 그러나 이것은 복잡한 주제입니다 역사적 경향 (서양) 역사는 부와 백색을 선호하고 너무 많은 ‘적은’이야기를 남기지 않는 역사의 역사.
이러한 까다 롭고 끊임없이 변화하는 문화적 매개 변수를 염두에두고 연구원의 새로운 접근 방식을 살펴 보겠습니다.
방법 및 테스트
생성 모델이 역사적 맥락을 해석하는 방법을 테스트하기 위해 저자는 있어야합니다일반적인 인간 활동을 묘사 한 100 개의 프롬프트에서 생성 된 30,000 개의 이미지의 데이터 세트는 각각 10 개의 별개의 기간에 걸쳐 렌더링됩니다.
저자가 Hugging Face에서 제공 한 Histvis 데이터 세트의 샘플. 출처 : https://huggingface.co/datasets/latentcanon/histvis
다음과 같은 활동 요리,,, 기도 또는 음악 듣기그들의 보편성을 위해 선택되었고, 특정 미학에서 모델을 고정하지 않기 위해 중립적 인 형식으로 표현되었습니다. 데이터 세트의 기간은 17 세기에서 현재까지 다양하며, 20 세기부터 5 년간의 개별 수십 년에 중점을 둡니다.
3 개의 널리 사용되는 오픈 소스 확산 모델을 사용하여 30,000 개의 이미지가 생성되었습니다. 안정적인 확산 XL; 안정적인 확산 3; 그리고 플럭스 1. 기간을 유일한 변수로 분리함으로써 연구원들은이 시스템에 의해 역사적 신호가 시각적으로 인코딩되거나 무시되는 방법을 평가하기위한 구조화 된 기초를 만들었습니다.
시각적 스타일 지배
저자는 처음에 생성 모델이 구체적으로 기본적으로 시각적 스타일 역사적 시대를 묘사 할 때; 프롬프트가 중간 또는 미학에 대한 언급이 포함되어 있지 않은 것처럼 보였기 때문에 모델은 종종 특정 세기를 특징적인 스타일과 연관시킬 것입니다.
프롬프트에서 생성 된 이미지에 대한 예측 된 시각적 스타일 ‘ [historical period]'(왼쪽) 및 수정 된 프롬프트에서’다른 사람과 춤추는 사람의 사진 이미지 [historical period]’흑백 그림’과 함께 부정적인 프롬프트 (오른쪽)로 설정됩니다.
이러한 경향을 측정하기 위해 저자는 a 컨볼 루션 신경 네트워크 (CNN) HISTVIS 데이터 세트의 각 이미지를 5 가지 범주 중 하나로 분류합니다. 그림; 조각; 삽화; 그림; 또는 사진술. 이 범주는 시간 기간에 걸쳐 나타나고 구조화 된 비교를 지원하는 일반적인 패턴을 반영하기위한 것입니다.
분류기는 a vggg16 미리 훈련 된 모델 imagenet 그리고 미세 조정 수업 당 1,500 개의 예제 a Wikiart-유래 데이터 세트. Wikiart는 단색을 컬러 사진과 구별하지 않기 때문에 화려한 점수 낮은 포화 이미지를 단색으로 표시하는 데 사용되었습니다.
그런 다음 훈련 된 분류기는 전체 데이터 세트에 적용되었으며, 결과는 세 가지 모델 모두 기간에 따라 일관된 스타일의 기본값을 부과한다는 것을 보여줍니다. SDXL은 17 세기와 18 세기를 조각과 동기화하는 반면 SD3 및 Flux.1은 그림을 향한 경향이 있습니다. 20 년 동안 SD3는 흑백 사진을 선호하는 반면 SDXL은 종종 현대적인 삽화를 반환합니다.
이러한 선호도는 신속한 조정에도 불구하고 지속되는 것으로 밝혀졌으며, 이는 모델이 스타일과 역사적 맥락 사이의 확고한 링크를 인코딩 함을 시사합니다.
모델 당 기간당 1,000 개의 샘플을 기반으로 각 확산 모델에 대해 역사적 기간에 걸쳐 생성 된 이미지의 예측 된 시각적 스타일.
모델이 역사적 기간을 특정과 얼마나 강력하게 연결하는지 정량화하려면 시각적 스타일저자는 제목을 지표로 개발했습니다 시각적 스타일 지배 (VSD). 각 모델 및 기간에 대해 VSD는 가장 일반적인 스타일을 공유 할 것으로 예측 된 출력의 비율로 정의됩니다.
모델 전체의 문체 바이어스의 예.
점수가 높을수록 단일 스타일이 해당 기간의 출력을 지배하는 반면 점수는 낮은 점수가 더 큰 변화를 가리 킵니다. 이로 인해 각 모델이 시간이 지남에 따라 특정 문체 규칙에 얼마나 단단히 준수하는지 비교할 수 있습니다.
전체 HISTVIS 데이터 세트에 적용되는 VSD 메트릭은 다양한 수준의 수렴 수준을 보여 주어 각 모델이 과거에 대한 시각적 해석을 얼마나 강하게 좁히는지를 명확히하는 데 도움이됩니다.
위의 결과 표는 각 모델의 역사적 기간에 걸친 VSD 점수를 보여줍니다. 17 세기와 18 세기에 SDXL은 일관성이 높은 조각을 생성하는 반면 SD3 및 Flux는 페인팅을 선호합니다. 20 세기와 21 세기까지 SD3 및 Flux.1은 사진으로 이동하는 반면 SDXL은 더 많은 변형을 나타내지 만 종종 기본값을 보여줍니다.
세 가지 모델 모두 20 세기 초 수십 년, 특히 1910 년대, 1930 년대 및 1950 년대에 흑백 이미지를 선호합니다.
이러한 패턴을 완화 할 수 있는지 여부를 테스트하기 위해 저자는 사용했습니다. 프롬프트 엔지니어링음성 프롬프트를 사용하여 명시 적으로 사진을 요청하고 단색 출력을 낙담시킵니다. 경우에 따라 지배적 점수가 감소하고 예를 들어 흑백에서 그림17 세기와 18 세기.
그러나 이러한 개입은 진정으로 사진을 생성하지 못했습니다 Alistic Images, 모델의 스타일 기본값이 깊이 포함되어 있음을 나타냅니다.
역사적 일관성
다음 분석 한 줄이 보았습니다 역사적 일관성: 생성 된 이미지에 기간에 맞지 않는 객체가 포함되어 있는지 여부. 금지 된 항목의 고정 된 목록을 사용하는 대신 저자는 대형 언어 (LLM)와 VLM (Vision-Language Models)을 활용하여 역사적 맥락에 따라 제자리에있는 요소를 발견하는 유연한 방법을 개발했습니다.
탐지 방법은 HISTVIS 데이터 세트와 동일한 형식을 따랐으며, 각 프롬프트는 역사적 기간을 인간 활동과 결합했습니다. 각 프롬프트에 대해, GPT-4O는 지정된 기간에 제자리에 있지 않은 객체 목록을 생성했습니다. 그리고 제안 된 모든 대상에 대해 GPT-4O는 a 예 또는 아니오 질문 객체가 생성 된 이미지에 나타 났는지 확인하기 위해 설계된 질문.
예를 들어, 프롬프트가 주어지면 ’18 세기에 음악을 듣는 사람’GPT-4O가 식별 할 수 있습니다 최신 오디오 장치 역사적으로 부정확하고 질문을 제작합니다 18 세기에 존재하지 않은 헤드폰이나 스마트 폰을 사용하는 사람입니까?.
이러한 질문은 시각적 질문 응답 설정으로 GPT-4O로 다시 전달되었으며, 모델은 이미지를 검토하고 반환했습니다. 예 또는 아니요 각각에 대한 답변. 이 파이프 라인은 현대적인 물체의 사전 정의 된 분류법에 의존하지 않고 역사적으로 불가능한 콘텐츠를 감지 할 수있게 해주었다.
생성 된 이미지의 예는 2 단계 탐지 방법으로 표시되어 구식 요소를 보여줍니다. 18 세기의 헤드폰; 19 세기의 진공 청소기; 1930 년대의 노트북; 그리고 1950 년대의 스마트 폰.
생성 된 이미지에 구식이 얼마나 자주 나타나는지 측정하기 위해 저자는 점수 점수 및 심각도를위한 간단한 방법을 도입했습니다. 먼저, 그들은 GPT-4O가 동일한 대상을 묘사하는 방식에서 사소한 문구 차이를 설명했습니다.
예를 들어, 최신 오디오 장치 및 디지털 오디오 장치는 동등한 것으로 취급되었습니다. 이중 계산을 피하기 위해 a 퍼지 매칭 시스템 진정으로 뚜렷한 개념에 영향을 미치지 않으면 서 이러한 표면 수준의 변화를 그룹화하는 데 사용되었습니다.
제안 된 모든 구식화가 정규화되면 두 가지 메트릭이 계산되었습니다. 빈도 특정 기간 및 모델 동안 이미지에 주어진 객체가 얼마나 자주 나타 났는지 측정했습니다. 그리고 심각성 모델이 제안한 후에 그 물체가 얼마나 안정적으로 나타나는지 측정했습니다.
현대의 전화가 10 번 표시되고 10 개의 생성 된 이미지에 나타나면 심각도 점수는 1.0입니다. 단지 5 개만 나타나면 심각도 점수는 0.5입니다. 이 점수는 구식이 발생했는지 여부뿐만 아니라 각 기간 동안 모델의 출력에 얼마나 단단히 내장되었는지를 식별하는 데 도움이되었습니다.
x 축의 주파수와 Y 축의 심각도별로 그려진 각 모델에 대한 상위 15 개의 구식 요소. 원은 주파수, 심각도에 의한 삼각형, 둘 다의 다이아몬드에 의해 상위 15 위에 순위가 매겨진 요소를 표시합니다.
위에서 우리는 각 모델에 대한 15 개의 가장 일반적인 대변인을보고, 그들이 얼마나 자주 나타나고, 얼마나 일관되게 프롬프트와 일치하는지에 의해 순위가 매겨집니다.
의류는 빈번했지만 흩어졌지만 오디오 장치 및 다림질 장비와 같은 품목은 덜 자주 나타나지 만 일관성이 높습니다. 모델이 종종 응답하는 패턴 프롬프트의 활동 기간 이상.
SD3은 특히 19 세기 및 1930 년대 이미지에서 가장 높은 비율의 구식 비율을 보여 주었고, Flux.1 및 SDXL이 뒤를이었습니다.
탐지 방법이 인간의 판단을 얼마나 잘 일치 시켰는지 테스트하기 위해 저자는 SD3의 1,800 개의 무작위로 샘플링 된 이미지 (가장 높은 구식 비율을 가진 모델)를 특징으로하는 사용자 학습을 실행했으며 각 이미지는 3 명의 크라우드 노동자가 평가했습니다. 신뢰할 수있는 응답을 필터링 한 후 234 명의 사용자로부터 2,040 개의 판단이 포함 되었으며이 방법은 72 %의 경우 다수의 투표에 동의했습니다.
인간 평가 연구를위한 GUI, 과제 지침, 정확하고 시대적 인 이미지의 예를 보여주는 GUI, 생성 된 출력에서 시간적 불일치를 식별하기위한예요 질문.
인구 통계
최종 분석은 모델이 시간이 지남에 따라 인종과 성별을 묘사하는 방법을 조사했습니다. HISTVIS 데이터 세트를 사용하여 저자는 모델 출력을 언어 모델에 의해 생성 된 기준선 추정치와 비교했습니다. 이러한 추정치는 정확하지는 않았지만 거친 역사적 타당성을 제공하여 모델이 의도 한 기간에 묘사 된 묘사를 조정했는지 여부를 밝히는 데 도움이되었습니다.
이러한 묘사를 규모로 평가하기 위해 저자는 모델 생성 인구 통계를 각 시간과 활동에 대한 거친 기대와 비교하는 파이프 라인을 구축했습니다. 그들은 처음에 사용했습니다 페어 페이스 분류기, a RESNET34-생성 된 출력에서 성별과 인종을 감지하기 위해 10 만 개가 넘는 이미지로 훈련되어 각 장면의 얼굴이 남성 또는 여성으로 분류되는지를 측정하고 기간 동안의 인종 범주 추적을 측정 할 수 있습니다.
다양한 모델, 기간 및 활동에 걸쳐 인구 통계 학적 과다 표현을 보여주는 생성 된 이미지의 예.
소음을 줄이기 위해 저명한 결과를 여과했으며, 특정 시간 및 활동과 관련된 모든 이미지에 대해 예측을 평균화했습니다. Fairface Readings의 신뢰성을 확인하려면 두 번째 시스템을 기반으로합니다. 딥 페이스 5,000 개의 이미지 샘플에 사용되었습니다. 두 분류기는 연구에 사용 된 인구 통계 판독 값의 일관성을 뒷받침하는 강력한 일치를 보여주었습니다.
모델 출력과 역사적 타당성을 비교하기 위해 저자는 GPT-4O에게 각 활동 및 기간에 대한 예상 성별 및 인종 분포를 추정하도록 요청했습니다. 이 추정치는 근거 진실보다는 거친 기준선 역할을했습니다. 그런 다음 두 가지 메트릭이 사용되었습니다. 과소 평가 그리고 과잉 표현모델의 출력이 LLM의 기대에서 얼마나 많이 벗어 났는지 측정합니다.
결과는 명확한 패턴을 나타 냈습니다 : 플럭 요리여성이 기대되는 곳; SD3 및 SDXL은 일하다,,, 교육 그리고 종교; 이 편견은 최근에 더 최근에 감소했지만 흰색 얼굴은 전반적으로 예상보다 더 많이 나타났습니다. 그리고 일부 범주는 백인이 아닌 표현에서 예상치 못한 스파이크를 보여 주었으며, 모델 동작은 역사적 맥락보다는 데이터 세트 상관 관계를 반영 할 수 있음을 시사합니다.
플럭스의 성별 및 인종 과잉 표현 및 과소 대표 1 세기에 걸친 출력 및 활동 및 활동은 GPT-4O 인구 통계 학적 추정치와 절대적인 차이로 나타납니다.
저자는 다음과 같이 결론을 내립니다.
‘우리의 분석은 그것을 보여줍니다 [Text-to-image/TTI] 모델은 역사적 시대에 대한 미묘한 이해보다는 제한된 문체 인코딩에 의존합니다. 각 시대는 특정 시각적 스타일과 밀접하게 연결되어있어 1 차원의 역사 묘사를 초래합니다.
‘특히, 사람들에 대한 사진 론적 묘사는 20 세기부터 유연하게 나타나며, 플럭스와 SD3의 드문 예외만으로, 모델이 역사적 맥락에 유연하게 적응하기보다는 학습 된 연관성을 강화하고 현실주의가 현실주의라는 개념을 영속적으로 유지한다는 것을 시사한다.
‘또한 빈번한 구동주의는 현대 인공물이 종종 현대적인 환경에서 나오는 종종 교육 및 문화 문화 유산 맥락에서 TTI 시스템의 신뢰성을 약화시키기 때문에 이러한 모델의 잠재 공간에서 역사적 시대가 깨끗하게 분리되지 않음을 시사합니다.’
결론
확산 모델을 훈련하는 동안, 새로운 개념은 잠복 공간 내에서 사전 정의 된 슬롯에 깔끔하게 정착하지 않습니다. 대신, 그들은 얼마나 자주 나타나고 관련 아이디어에 근접하여 형성된 클러스터를 형성합니다. 결과는 깨끗하거나 경험적 분리가 아니라 빈도 및 전형적인 맥락과 관련하여 개념이 존재하는 느슨하게 조직화 된 구조입니다.
이로 인해 대규모 일반 목적 데이터 세트 내에서 ‘역사적’으로 간주되는 것을 분리하기가 어렵습니다. 새로운 논문의 발견에서 알 수 있듯이 많은 기간이 바라보다 미디어는 더 깊은 역사적 세부 사항보다 그것들을 묘사하는 데 사용되었습니다.
이것이 19 세기 (예 : 19 세기)의 캐릭터의 2025 Quality Photoreastic 이미지를 생성하기가 어려운 이유 중 하나입니다. 대부분의 경우이 모델은 영화와 텔레비전에서 그려진 시각적 트로피에 의존합니다. 요청과 일치하지 않으면 데이터에는 보상 할 다른 것이 거의 없습니다. 이 격차를 해소하는 것은 겹치는 개념을 분리하는 향후 개선에 달려있을 것입니다.
2025 년 5 월 26 일 월요일에 처음 출판되었습니다
게시물 Bygone 시대의 iPhone을 묘사 한 AI를 중지하는 방법 먼저 나타났습니다 Unite.ai.