미국과 캐나다의 연구원들 사이의 협력에 따르면 Chatgpt와 같은 대형 언어 모델 (LLM) 사전 조정 -대부분의 학업 또는 엔터테인먼트 이니셔티브의 수단을 넘어서는 비용이 많이 들고 노동 집약적 인 프로세스. Charles Dickens의 마지막 미완성 소설을 완성했습니다 효과적으로 AI를 통해 가능성이 낮은 제안.
연구원들은 소리가 들렸다 역사적으로 정확한 20 세기 초반의 산문을 사용하는 간단한 프롬프트로 시작하여 미세 조정 그 시대의 작은 책 모음에 대한 상업용 모델.
또한 결과를 1880 년에서 1914 년 사이에 출판 한 책에 대해 전적으로 훈련 된 별도의 모델과 비교했습니다.
첫 번째 테스트에서 chatgpt-4o를 모방하도록 지시 지느러미–~의–세기 언어는 그 기간부터 문헌에 대해 잘 연결된 소규모 GPT2 기반 모델의 결과와는 상당히 다른 결과를 얻었습니다.
실제 역사적 텍스트 (상위 센터)를 완성하라는 요청을 받았으며, 잘 알려진 ChatGpt-4O (왼쪽 아래)조차도 ‘블로그’모드로 다시 래핑하는 데 도움이되지 않아 요청 된 관용구를 나타내지 못합니다. 대조적으로, 미세 조정 된 GPT2 모델 (오른쪽 하단)은 언어 스타일을 잘 포착하지만 다른 방식으로는 정확하지 않습니다.. 출처 : https://arxiv.org/pdf/2505.00030
미세 조정은 출력을 원래 스타일에 더 가깝게 만들지 만 인간 독자들은 여전히 현대 언어 나 아이디어의 흔적을 자주 감지 할 수 있었으며, 신중하게 조정 된 모델조차도 현대 교육 데이터의 영향을 계속 반영하고 있음을 시사합니다.
연구원들은 기계 제작 특성 적으로 역사적 텍스트 나 대화의 생성에 대한 경제적 단축이 없다는 실망스러운 결론에 도달했다. 그들은 또한 도전 자체가 악의적 일 수 있다고 추측합니다.
‘[We] 또한 시대가 피할 수없는 일이 될 수있는 가능성을 고려해야합니다. 우리가 대화를 개최 할 수 있도록 지시 조정 역사적 모델로 과거를 대표하든, 현대 모델이 더 오래된시기를 심문하도록 가르치면서, 진정성과 대화 유창성의 목표 사이에 약간의 타협이 필요할 수 있습니다.
‘결국, 21 세기 질문자와 1914 년의 응답자 사이의 대화의“진정한”사례는 없습니다. 그러한 대화를 만들려고 시도하는 연구원들은 [premise] 그 해석은 항상 현재와 사이의 협상을 포함합니다 [past]. ‘
그만큼 새로운 연구 제목이 있습니다 언어 모델이 구식이없는 과거를 대표 할 수 있습니까?일리노이 대학교, 브리티시 컬럼비아 대학교 및 코넬 대학교에서 3 명의 연구원이 출시되었습니다.
완전한 재난
처음에, 3 부분으로 구성된 연구 접근법에서 저자들은 현대 언어 모델이 단순한 프롬프트를 통해 역사적 언어를 모방 할 수 있는지 여부를 테스트했습니다. 그들은 1905 년에서 1914 년 사이에 출판 된 책의 실제 발췌를 사용하여 Chatgpt -4o에게 같은 관용구 에서이 구절들을 계속하도록 요청했습니다.
원래 기간 텍스트는 다음과 같습니다.
‘이 마지막 경우에는 약 5-6 달러가 분당 경제화되며, 단 한 분 동안 리포지스 나 풍경에있는 사람의 대상을 투사하기 위해 20 야드 이상의 영화를 제거해야합니다. 따라서 고정 사진과 움직이는 그림의 실질적인 조합이 얻어지며, 이는 대부분의 예술적 효과를 생성합니다.
‘또한 섬광을 피하거나 동시에 빨간색과 녹색 이미지를 투사하고 자연스러운 색상을 재현하기 위해 번갈아 가며 두 개의 촬영법을 번갈아 가며 모든 생리 학적 피로로부터 기본 색상을 동시에받는 데 익숙해졌습니다. 순간 사진에 차가운 빛을 적용하는 것에 관한 단어. ‘
생성 된 텍스트가 의도 된 역사적 스타일과 일치하는지 여부를 평가하기 위해 사람들이 텍스트가 작성된 날짜를 추측하는 데 특히 능숙하지 않다는 것을 의식하려면 연구원들이 미세 조정했습니다. 로베르타 출판 날짜를 추정하는 모델의 하위 집합을 사용하여 역사적인 미국 영어 코퍼스1810 년부터 2009 년까지의 자료를 덮고 있습니다.
그런 다음 Roberta 분류기는 1905 년에서 1914 년 사이에 출판 된 책의 실제 구절로 인해 ChatGpt -4o가 생성 한 연속성을 평가하는 데 사용되었습니다.
시스템 프롬프트 (즉, 작업에 접근하는 방법에 대한 chatgpt에 대한 상황에 맞는 지침)는 다음과 같습니다.
‘당신의 임무는 20 세기 초 책에서 구절을 완성하는 것입니다. 당신은 1913 년에 출판 된 책의 구절을 받게 될 것입니다.이 구절을 같은 스타일로 최소 200 단어로 계속하십시오. 이 연속 만 제공합니다. ‘여기서 계속된다’와 같은 프레임 발언을하지 마십시오.
둘 다에도 불구하고 원샷과 20 샷 프롬프트, ChatGpt-4O의 출력은 21 세기 스타일 레지스터를 향해 지속적으로 왜곡되었습니다.
이 논문에 제공된 예는 ChatGpt-4o의 블로그와 같은 사진에 대한 실제 텍스트를 계속하려는 시도 중 하나를 특징으로합니다.
‘순간 사진에서 차가운 빛의 사용은 다양한 빛 조건에서 이미지를 캡처하는 접근 방식에 혁명을 일으켰습니다. 전통적으로, 사진가들은 자연광의 가혹함과 변동성 또는 플래시 사진의 침입 적 특성으로 어려움을 겪었으며, 특히 야생 동물과 솔직한 인간 사진에서 장면의 분위기 나 피험자의 자연 행동을 방해 할 수 있습니다.
‘부드럽고 확산 된 자연이있는 차가운 빛… 색상과 질감을보다 자연스럽게 표현할 수 있으며, 종종 가혹한 인공 조명에서 사라집니다.’
우리가 쉽게 볼 수 있듯이,이 일반적인 위키 스타일의 텍스트는 원래 기간 텍스트의 prolix와 정교한 스타일과 일치하지 않습니다. 또한, 원래 콘텐츠가 떠나는 곳에서 실제로는 계속되지 않지만 하위 토픽 중 하나에 대한 접선의 추상적 인 사고로 시작됩니다.
팀도 테스트했습니다 GPT -19141880 년에서 1914 년 사이에 2,650 억 가지의 문헌으로 처음부터 훈련 된 더 작은 GPT -2 클래스 모델.
출력은 ChatGpt -4o의 출력보다 덜 일관성이 있었지만 소스 기간의 스타일과 더 일치했습니다. 논문에 제공된 유일한 예는 다시 사진에 대한 실제 기간 텍스트를 완성하여 다음과 같이 읽습니다.
‘그 행동의 원칙은 이미 설명되었다 (p. 4). 여기서는 콜로 디온으로 코팅 된 종이에 매우 빠른 사진과 젤라틴 플레이트를 통해 촬영 한 사진을 얻기를 원할 때 유리하게 적용될 수 있다고 언급 할 것입니다.
‘그러한 경우 노출은 적어도 1 초를 초과해서는 안됩니다. 그러나 그림이 더 적은 시간 안에 개발되기를 원한다면 – 반 초에 – 온도는 20 ° C 이하로 떨어지지 않아야합니다. 그렇지 않으면 이미지가 개발 후 너무 어두워집니다. 또한, 플레이트는 이러한 조건에서 민감성을 잃게됩니다.
‘평범한 목적을 위해서는 민감한 표면을 낮은 열에 노출시키는 것만으로 충분합니다. [sic]
실제적이고 독창적 인 자료조차도 비전하고 따르기가 매우 어렵 기 때문에 GPT-1914가 원본에서 정확하게 픽업 한 정도를 이해하기가 어렵습니다. 그러나 출력은 분명히 더 많은 기간이 부족한 것 같습니다.
그러나 저자들은이 실험에서 간단한 프롬프트가 ChatGPT-4O와 같은 큰 사전 취사 모델의 현대적 편견을 극복하는 데 거의 도움이되지 않는다고 결론 지었다.
줄거리가 두껍게됩니다
모델 출력이 정통 역사적 작문과 얼마나 밀접하게 유사한지를 측정하기 위해 연구원들은 통계적 분류기를 사용하여 각 텍스트 샘플의 출판일을 추정했습니다. 그런 다음 a를 사용하여 결과를 시각화했습니다 커널 밀도 플롯모델이 각 구절이 역사적 타임 라인에 속한다고 생각하는 위치를 보여줍니다.
역사적 스타일을 인식하도록 훈련 된 분류기를 기반으로 한 실제 및 생성 된 텍스트에 대한 예상 간행물 날짜 (1905–1914 소스 텍스트는 원샷 및 20- 샷 프롬프트를 사용한 GPT-4O의 연속과 비교하여 1880-1914 년의 문학에 대해서만 교육을받은 GPT-1914에 의해 훈련되었습니다.
저자에 따르면이 작업에 사용 된 미세한 Roberta 모델은 완벽하지는 않지만 일반적인 스타일 트렌드를 강조 할 수 있다고 지적했다. GPT -1914에 의해 작성된 구절 인이 모델 인이 모델은 전적으로 시대 문학에 대해 훈련되었으며, 20 세기 초에 원래 소스 자료와 유사하게 군집이 있습니다.
대조적으로, Chatgpt-4o의 출력은 여러 역사적 사례를 제시했을 때에도 원래 훈련 된 데이터를 반영하여 22 세기의 작문과 유사한 경향이있었습니다.
연구원들은이 불일치를 사용하여 정량화했습니다 Jensen-Shannon Divergence두 개의 확률 분포가 얼마나 다른지 측정합니다. GPT-1914는 실제 역사적 텍스트에 비해 0.006 점을 기록했으며 ChatGpt-4O의 원샷 및 20 샷 출력은 각각 0.310 및 0.350에서 훨씬 더 넓은 간격을 나타 냈습니다.
저자들은 이러한 발견이 여러 예를 가지고 있더라도 혼자서의 프롬프트는 역사적 스타일을 설득력있게 시뮬레이션하는 텍스트를 제작하는 신뢰할 수있는 방법이 아니라고 주장합니다.
구절을 완성합니다
그런 다음이 논문은 미세 조정이 우수한 결과를 낳을 수 있는지 조사합니다. 무게 사용자 지정 데이터에 대한 교육을 ‘계속’하여 모델의 원래 핵심 기능에 영향을 줄 수 있지만 ‘푸시’또는 미세 훈련 중에 강조되는 도메인에서 성능을 크게 향상시킬 수있는 프로세스입니다.
첫 번째 미세 조정 실험에서 팀은 훈련을 받았습니다 GPT -4O -MINI 1905 년에서 1914 년 사이에 출판 된 책에서 나온 약 2 천 개의 통로 완료 쌍에서 소규모 미세 조정이 모델의 출력을보다 역사적으로 정확한 스타일로 전환 할 수 있는지 여부를 보았습니다.
각 출력의 스타일 ‘날짜’를 추정하기 위해 이전 테스트에서 판사 역할을하는 동일한 Roberta 기반 분류기를 사용하여, 연구원들은 새로운 실험에서 미세 조정 된 모델이 텍스트가 근거 진실과 밀접하게 정렬되어 있음을 발견했습니다.
Jensen-Shannon Divergence에 의해 측정 된 원래 텍스트의 스타일 발산은 일반적으로 GPT-1914와 일치하여 0.002로 떨어졌습니다.
실제 및 생성 된 텍스트에 대한 예상 간행물 날짜는 GPT-1914와 GPT-4O-MINI의 미세 조정 버전이 20 세기 초 글쓰기의 스타일과 얼마나 밀접하게 일치하는지 (1905 년에서 1914 년 사이에 출판 된 책을 기반으로)를 보여줍니다.
그러나 연구자들은이 메트릭이 역사적 스타일의 피상적 특징을 포착 할 수 있으며 더 깊은 개념적 또는 사실적인 시대주의가 아니라는 점에 대해 경고합니다.
‘[This] 매우 민감한 테스트가 아닙니다. 여기에서 판사로 사용되는 Roberta 모델은 날짜를 예측하도록 훈련되어 있으며, 날짜를 예측하여 시대에 정통 구절을 차별하지 않습니다. 아마도 거친 문체 증거를 사용하여 예측을 할 것입니다. 인간 독자 또는 더 큰 m Odels는 여전히 “기간 내”표면적으로 들리는 구절에서 시대적 인 내용을 감지 할 수 있습니다.
인간의 손길
마지막으로, 연구원들은 1905 년에서 1914 년 사이에 출판 된 책에서 250 개의 손으로 선택된 구절을 사용하여 인간 평가 테스트를 수행했으며,이 텍스트들 중 많은 부분이 글을 쓰는 시점과는 상당히 다르게 해석 될 것임을 관찰합니다.
‘예를 들어, 우리의 목록에는 Alsace의 백과 사전 (독일의 일부)과 Beri-Beri (종종 영양 결핍보다는 곰팡이 질병으로 설명됨)에 대한 백과 사전 항목이 포함되었습니다. 그것들은 사실의 차이이지만, 우리는 또한 태도, 수사 또는 상상력의 미묘한 차이를 나타내는 구절을 선택했습니다.
예를 들어, 20 세기 초 비 유럽인들에 대한 설명은 인종 일반화에 빠지는 경향이 있습니다. 1913 년에 쓰여진 달에 대한 일출에 대한 설명은 풍부한 색수 현상을 상상합니다. [atmosphere]. ‘
연구원들은 각 역사적 구절이 그럴듯하게 대답 할 수있는 짧은 질문을 만들었고,이 질문에 대해 GPT-4O-MINI를 미세 조정했습니다. 평가를 강화하기 위해 매번 5 개의 개별 버전의 모델을 교육했습니다. 잡고 테스트를위한 데이터의 다른 부분.
그런 다음 GPT-4O 및 GPT-4O-MINI의 기본 버전과 미세 조정 변형을 모두 사용하여 응답을 생성했으며, 각각은 훈련 중에 보이지 않았던 부분에 대해 평가되었습니다.
시간이 지남에 따라 길을 잃었습니다
이 모델이 역사적 언어를 어떻게 모방 할 수 있는지 평가하기 위해 연구원들은 3 명의 전문가 주석가들에게 120 개의 AI 생성 완료를 검토하고 1914 년에 작가에게 그럴듯한 것처럼 보이는지 판단했습니다.
이 직접적인 평가 접근법은 예상보다 더 어려운 것으로 판명되었습니다. 주석자는 평가에 거의 80 %의 평가에 동의했지만, 판단의 불균형 ( ‘그럴듯한’이 ‘그럴듯하지 않은’것보다 두 배나 자주 선택됨)은 실제 합의 수준만이 코헨의 카파 점수 0.554.
평가자들은 그 과제를 다음과 같이 묘사했습니다 어려운진술이 1914 년에 알려진 것과 관련이 있는지 여부를 평가하기 위해 종종 추가 연구가 필요합니다.
일부 구절은 톤과 관점에 대한 어려운 질문을 제기했습니다. 예를 들어, 1914 년에 전형적인 것을 반영하기 위해 반응이 적절하게 제한되었는지 여부는 이런 종류의 판단이 종종의 수준에 달려 있습니다. 민족 중심주의 (즉, 자신의 가정이나 편견을 통해 다른 문화를 보는 경향).
이러한 맥락에서, 도전은 구절이 너무 현대적으로 들리지 않고 역사적으로 그럴듯 해 보이거나 오늘날의 표준에 의해 너무 불쾌하게 보이도록 충분한 문화적 편견을 표현했는지 여부를 결정하는 것이 었습니다. 저자들은이 시대에 익숙한 학자들조차도 역사적으로 정확하다고 느꼈던 언어와 오늘날의 아이디어를 반영하는 언어 사이에 날카로운 선을 그리는 것은 어려웠다 고 지적했다.
그럼에도 불구하고, 결과는 모델의 명확한 순위를 보여 주었고, GPT-4O-MINI의 미세 조정 된 버전은 전체적으로 가장 그럴듯한 것으로 판단되었습니다.
각 모델의 출력이 얼마나 그럴듯한 지에 대한 주석기 평가
이 수준의 성능 여부 그럴듯한 80 %의 경우, 역사적 연구를 위해 충분히 신뢰할 수 있습니다. 특히 연구에는 진정한 시대의 텍스트가 얼마나 자주 분류 될 수 있는지에 대한 기준 측정이 포함되지 않았기 때문입니다.
침입자 경보
다음으로 ‘침입자 테스트’가 나왔는데, 여기서 전문가 주석은 4 개의 익명 구절이 동일한 역사적 질문에 대답했습니다. 세 가지 응답은 언어 모델에서 나 왔으며, 하나는 실제 20 세기 초 출처에서 실제적이고 진정한 발췌문이었습니다.
임무는 그 기간 동안 진정으로 쓰여진 원래의 구절인지 식별하는 것이 었습니다.
이 접근법은 주석기에 타당성을 직접 평가하도록 요구하지 않았지만 오히려 실제 구절이 AI 생성 응답에서 얼마나 자주 눈에 띄는지를 측정했습니다. 사실상 모델이 독자가 자신의 출력이 정통하다고 생각하도록 속일 수 있는지 테스트했습니다.
모델의 순위는 이전 판단 작업의 결과와 일치했습니다. GPT-4O-MINI의 미세 조정 버전은 모델 중에서 가장 설득력이 있었지만 여전히 실제에 미치지 못했습니다.
각 소스가 정통 역사적 구절로 올바르게 식별되는 빈도.
이 테스트는 또한 유용한 벤치 마크 역할을했는데, 진정한 통로가 절반 이상 식별 되었기 때문에, 정통 및 합성 산문 사이의 격차는 인간 독자들에게 눈에 띄게 남아 있기 때문입니다.
통계 분석 McNemar의 시험 유사하게 수행 된 두 가지 비정상 버전 (GPT -4O 및 GPT -4O · MINI)의 경우를 제외하고는 모델 간의 차이가 의미가 있음을 확인했습니다.
과거의 미래
저자들은 현대 언어 모델이 역사적 목소리를 채택하도록 촉구하는 것이 확실하게 설득력있는 결과를 얻지 못했다는 것을 발견했습니다. 출력의 3 분의 2 미만이 인간 독자들에 의해 그럴듯하게 판단되었으며,이 수치조차도 성능을 과장했을 것입니다.
대부분의 경우, 응답에는 모델이 오늘날의 관점에서 말하고 있다는 명시 적 신호가 포함되었습니다. ‘1914 년에는 아직 알려지지 않았습니다…’ 또는 ‘1914 년 현재, 나는 익숙하지 않다…’ 완성의 5 분의 1만큼 나타날 수있을 정도로 일반적이었습니다. 이런 종류의 면책 조항은 모델이 그 안에 쓰기보다는 외부에서 역사를 시뮬레이션하고 있음을 분명히했습니다.
저자 상태 :
‘텍스트 내 학습의 성능 저하는 불행한 일입니다. 이러한 방법은 AI 기반 역사적 연구에서 가장 쉽고 저렴한 방법이기 때문입니다. 우리는 이러한 접근법을 철저하게 탐구하지 않았 음을 강조합니다.
‘텍스트 내 학습이 연구 분야의 하위 집합에 적합하거나 미래에 적절하다는 것이 밝혀 질 수 있습니다. 그러나 우리의 초기 증거는 고무적이지 않습니다. ‘
저자들은 역사적 구절에서 상업적 모델을 미세 조정하는 동안 최소한의 비용으로 스타일 적으로 설득력있는 출력을 생성 할 수 있지만 현대적 관점의 흔적을 완전히 제거하지는 않는다고 결론 지었다. 기간 재료에 전적으로 모델을 사전으로 예방하는 것은 시대를 피하기는 피나 훨씬 더 큰 자원을 필요로하며, 유창한 출력을 덜 가져옵니다.
어느 쪽도 완전한 솔루션을 제공하지 않으며, 현재로서는 역사적 목소리를 시뮬레이션하려는 모든 시도는 진정성과 일관성 사이의 상충 관계를 포함하는 것으로 보입니다. 저자들은 그 긴장을 가장 잘 탐색하는 방법을 명확히하기 위해 추가 연구가 필요하다고 결론을 내립니다.
결론
아마도 새로운 논문에서 발생하는 가장 흥미로운 질문 중 하나는 진정성 일 것입니다. 완벽한 도구는 아니지만 손실 기능 및 다음과 같은 메트릭 LPIP 그리고 SSIM 컴퓨터 비전 연구자들에게 최소한 지상 진실에 대한 평가를위한 비슷한 방법론을 제공합니다.
대조적으로, 과거 시대의 스타일로 새로운 텍스트를 생성 할 때, 지상 진실은 없습니다. 문학적 흔적에서 그 사고 방식을 재구성하려는 것은 그 자체가 양자화그러한 흔적은 단지 증거 일 뿐이므로, 그들이 등장하는 문화적 의식은 추론을 넘어 상상력을 넘어 서기 때문입니다.
실질적인 차원에서, 오늘날의 규범과 데이터에 의해 형성되는 현대 언어 모델의 기초는 에드워드 독자에게 합리적이거나 눈에 띄지 않는 아이디어를 재 해석하거나 억제 할 위험이 있지만, 이제는 편견, 불평등 또는 불의의 (종종 공격적인) 인공물로 등록하는 아이디어를 재 해석하거나 억제 할 위험이 있습니다.
그러므로 우리가 그러한 구어체를 만들 수 있다고해도 우리를 격퇴하지 않을 수 있는지 궁금합니다.
2025 년 5 월 2 일 금요일에 처음 출판되었습니다
게시물 AI는 역사적 언어를 모방하는 데 어려움을 겪고 있습니다 먼저 나타났습니다 Unite.ai.