대형 언어 모델은 데이터 세트를 테스트하기위한 데이터 세트를 암기하고 있습니다.

martin anderson

3개월 ago

AI에 의존하여 무엇을보고 읽거나 구매 해야하는지, 새로운 연구에 따르면 일부 시스템은 이러한 결과를 기반으로 할 수 있습니다. 메모리 기술보다는 : 유용한 제안을하는 법을 배우는 대신 모델은 종종 데이터를 평가하는 데 사용되는 데이터 세트의 항목을 회상하여 사용자에게 구식 또는 제대로 일치 할 수있는 성능과 권장 사항을 과대 평가합니다.

머신 러닝에서 a 테스트 스플릿 훈련 된 모델이 훈련 된 재료와 비슷하지만 동일하지 않은 문제를 해결하는 법을 배웠는지 확인하는 데 사용됩니다.

따라서 새로운 AI ‘Dog-Breed 인식’모델이 개 100,000 개 사진의 데이터 세트에 대한 교육을 받으면 일반적으로 80/20 분할-모델을 훈련시키기 위해 제공되는 80,000 장의 사진이 있습니다. 그리고 20,000 장의 사진이 뒤로 물러서서 완성 된 모델을 테스트하기위한 재료로 사용했습니다.

AI의 교육 데이터에 실수로 ‘비밀’20% 테스트 분할 섹션이 포함된다면, 모델은 이미 답변을 알고 있기 때문에 이러한 테스트를 수행 할 것입니다 (이미 도메인 데이터의 100%를 이미 보았습니다). 물론 이것은 생산 상황에서 새로운 ‘라이브’데이터에서 나중에 모델이 어떻게 수행되는지 정확하게 반영하지 않습니다.

영화 스포일러

시험에서 AI 부정 행위의 문제는 모델 자체의 규모로 단계적으로 증가했습니다. 오늘날의 시스템은 광대하고 무차별적인 웹 스프레이링 된 코퍼레이션에 대해 교육을 받았기 때문에 일반적인 크롤링벤치 마크 데이터 세트 (예 : Hold-back 20%)가 훈련 믹스에 미끄러질 가능성은 더 이상 에지 케이스가 아니라 기본값-다음으로 알려진 증후군입니다. 데이터 오염; 그리고이 척도에서, 그러한 오류를 잡을 수있는 수동 큐 레이션은 논리적으로 불가능합니다.

이 사례는 이탈리아의 Politecnico di Bari의 새로운 논문에서 탐구되며, 연구원들은 단일 영화 추천 데이터 세트의 큰 역할에 중점을 둔다. Movielens-1M그들은 부분적으로 주장했다 암기 훈련 중에 여러 주요 AI 모델에 의해.

이 특정 데이터 세트가 추천 시스템 테스트에 매우 널리 사용되기 때문에 모델의 메모리에있는 존재는 잠재적으로 테스트를 의미가 없게 만듭니다. 실제로 인텔리전스로 보이는 것은 실제로 간단한 리콜 일 수 있으며 직관적 인 권장 기술처럼 보이는 것은 이전 노출을 반영하는 통계적 에코 일 수 있습니다.

저자 상태 :

‘우리의 연구 결과는 LLM이 Movielens-1M 데이터 세트, 항목, 사용자 속성 및 상호 작용 이력을 다루는 광범위한 지식을 가지고 있음을 보여줍니다. 특히 간단한 프롬프트는 GPT-4O가 거의 80%를 복구 할 수있게합니다. [the names of most of the movies in the dataset].

‘검사 된 모델 중 어느 것도이 지식이 없으며, Movielens-1M 데이터는 교육 세트에 포함되어 있음을 시사합니다. 우리는 사용자 속성과 상호 작용 이력을 검색하는 데 유사한 경향을 관찰했습니다. ‘

요약 새로운 종이 제목이 있습니다 LLMS는 추천 데이터 세트를 암기합니까? Movielens-1M에 대한 예비 연구6 명의 PoliteCnico 연구원들로부터 온 것입니다. 그들의 작업을 재현하기위한 파이프 라인이있었습니다 Github에서 제공됩니다.

방법

문제의 모델이 진정으로 배우거나 단순히 회상했는지 여부를 이해하기 위해 연구원들은이 맥락에서 암기가 무엇을 의미하는지 정의로 시작했으며, 올바른 방식으로 프롬프트 될 때 모델이 Movielens-1M 데이터 세트에서 특정 정보를 검색 할 수 있는지 테스트하여 시작했습니다.

모델에 영화의 ID 번호가 표시되어 제목과 장르를 생성 할 수있는 경우 항목을 암기하는 것으로 간주됩니다. 사용자 ID에서 사용자 (예 : 연령, 직업 또는 우편 번호)에 대한 세부 정보를 사용자의 암기로 계산할 수있는 경우; 알려진 이전의 서열에서 사용자의 다음 영화 등급을 재현 할 수 있다면 모델이 리콜 될 수 있다는 증거로 간주되었습니다. 특정 상호 작용 데이터일반적인 패턴을 배우기보다는.

이러한 각 형태의 리콜은 신중하게 쓰여진 프롬프트를 사용하여 테스트되었으며, 새로운 정보를 제공하지 않고 모델을 고무시키기 위해 제작되었습니다. 응답이 정확할수록 교육 중에 모델이 이미 해당 데이터에 직면했을 가능성이 높습니다.

새 논문에 사용 된 평가 프로토콜에 대한 제로 샷 프롬프트. 출처 : https://arxiv.org/pdf/2505.10212

데이터 및 테스트

적절한 데이터 세트를 큐 레이션하기 위해 저자는 필드의 주요 회의에서 최근 논문을 조사했습니다. ACM은 2024를 재활용합니다 그리고 acm cow 2024. Movielens-1M은 가장 자주 나타나 5 번의 제출물 중 1 개 이상으로 인용되었습니다. 부터 초기 연구 비슷한 결론에 도달했지만 이것은 놀라운 결과가 아니라 데이터 세트의 지배력을 확인했습니다.

Movielens-1M은 세 가지 파일로 구성됩니다. 영화 산업. 저것ID, 제목 및 장르 별 영화를 나열합니다. user.dat사용자 ID를 기본 전기 분야에 매핑합니다. 그리고 등급누가 무엇을 평가했는지, 언제.

이 데이터가 큰 언어 모델에 의해 암기되었는지 여부를 알아 내기 위해 연구원들은 종이 대형 언어 모델에서 교육 데이터 추출그리고 나중에 후속 작업 언어 모델에서 데이터 추출을 훈련하기위한 트릭 백.

이 방법은 직접적입니다. 데이터 세트 형식을 반영하는 질문을 제시하고 모델이 올바르게 답변하는지 확인하십시오. 제로 샷,,, 생각의 사슬그리고 소수의 프롬프트 테스트되었고, 모델에 몇 가지 예가 표시되는 마지막 방법이 가장 효과적이라는 것이 밝혀졌습니다. 더 정교한 접근 방식이 더 높은 리콜을 산출 할 수 있더라도, 이것은 기억 된 것을 밝히기에 충분한 것으로 간주되었습니다.

최소한의 컨텍스트로 쿼리 될 때 모델이 특정 Movielens-1M 값을 재현 할 수 있는지 테스트하는 데 사용되는 소수의 프롬프트.

암기를 측정하기 위해 연구원들은 세 가지 형태의 리콜을 정의했습니다. 목,,, 사용자그리고 상호 작용. 이 테스트는 모델이 ID에서 영화 제목을 검색하거나 사용자 ID로부터 사용자 세부 정보를 생성 할 수 있는지, 또는 이전 소지를 기반으로 한 사용자의 다음 등급을 예측할 수 있는지 여부를 조사했습니다. 각각은 커버리지 메트릭*을 사용하여 점수를 매겼습니다.

테스트 된 모델은있었습니다 GPT-4O; GPT-4O 미니; GPT-3.5 터보; 전화 -3.3 70b; llama-3.2 3b; Call-3.2 1B; Call-3.1 405b; Call-3.1 70b; 그리고 Call-3.1 8b. 모두 함께 실행되었습니다 온도 0으로 설정하고 top_p 하나로 설정하십시오 빈도와 존재 처벌이 비활성화되었습니다. 고정 임의의 씨앗 실행에 걸쳐 일관된 출력을 보장합니다.

movies.dat, users.dat 및 ratings.dat에서 검색된 Movielens-1M 항목의 비율은 버전별로 그룹화되고 매개 변수로 정렬됩니다.

Movielens-1M이 얼마나 깊이 흡수되었는지 조사하기 위해 연구자들은 각 모델을 데이터 세트의 세 가지 (위에서 언급 한) 파일의 정확한 항목에 대한 프롬프트했습니다. 영화 산업. 저것,,, user.dat그리고 등급.

위에 표시된 초기 테스트의 결과는 GPT와 LLAMA 패밀리뿐만 아니라 모델 크기에도 급격한 차이를 나타냅니다. GPT-4O 및 GPT-3.5 Turbo는 데이터 세트의 많은 부분을 쉽게 복구하는 반면, 대부분의 오픈 소스 모델은 동일한 재료의 일부만 리콜하여 사전 준비 에서이 벤치 마크에 대한 고르지 않은 노출을 시사합니다.

이것들은 작은 마진이 아닙니다. 세 가지 파일 모두에서 가장 강력한 모델은 단순히 약한 모델을 능가하지 않았지만 전체 부분 Movielens-1M의.

GPT-4O의 경우, 적용 범위는 데이터 세트의 사소한 점유율이 직접 암기되었음을 시사하기에 충분히 높았습니다.

저자 상태 :

‘우리의 연구 결과는 LLM이 Movielens-1M 데이터 세트, 항목, 사용자 속성 및 상호 작용 이력을 다루는 광범위한 지식을 가지고 있음을 보여줍니다.

‘특히 간단한 프롬프트를 통해 GPT-4O는 MovieId :: 제목 레코드의 거의 80%를 복구 할 수 있습니다. 검사 된 모델 중 어느 것도이 지식이 없으며, Movielens-1M 데이터는 교육 세트에 포함되어 있음을 시사합니다.

‘우리는 사용자 속성과 상호 작용 이력을 검색하는 데 비슷한 추세를 관찰했습니다.’

다음으로 저자는 각 모델이 추천 시스템으로 작용하도록 촉구하여 추천 작업에 대한 암기의 영향을 테스트했습니다. 성능을 벤치마킹하기 위해 출력을 7 가지 표준 방법과 비교했습니다. userknn; Itemknn; BPRMF; 쉬움^{아르 자형}; Lightgcn; Mostpop; 그리고 무작위.

Movielens-1M 데이터 세트는 80/20을 훈련 및 테스트 세트로 분할했습니다. 떠나기 실제 사용을 시뮬레이션하는 샘플링 전략. 사용 된 지표는있었습니다 적중률 (hr@[n]); 그리고 NDCG(@[n]) : :

표준 기준선 및 LLM 기반 방법에 대한 권장 정확도. 모델은 가족별로 그룹화되며 매개 변수 수에 의해 주문되며, Bold 값은 각 그룹 내에서 가장 높은 점수를 나타냅니다.

여기서 여러 대형 언어 모델은 모든 메트릭에서 전통적인 기준선을 능가했으며 GPT-4O는 모든 칼럼에서 넓은 리드를 확립하고 GPT-3.5 터보 및 LLAMA-3.1 405B와 같은 중간 크기의 모델을 BPRMF 및 LightGCN과 같은 벤치 마크 방법을 지속적으로 능가했습니다.

작은 LLAMA 변형 중에서 성능은 급격히 다양했지만 LLAMA-3.2 3B는 그룹에서 HR@1이 가장 높습니다.

저자들은 결과적으로 암기 된 데이터가 특히 가장 강력한 모델에 대해 추천 스타일 프롬프트에서 측정 가능한 이점으로 해석 될 수 있다고 지적합니다.

추가 관찰에서 연구원들은 계속합니다.

‘권장 성능이 뛰어난 것처럼 보이지만 표 2를 표 1과 비교하면 흥미로운 패턴이 나타납니다. 각 그룹 내에서 암기가 높은 모델은 추천 작업에서 우수한 성능을 보여줍니다.

예를 들어, GPT-4O는 GPT-4O MINI를 능가하고 LLAMA-3.1 405B는 LLAMA-3.1 70B 및 8B를 능가합니다.

“이러한 결과는 교육 데이터에서 유출 된 데이터 세트에서 LLM을 평가하는 것이 일반화보다는 암기에 의해 과도한 최적의 성능으로 이어질 수 있음을 강조합니다. ‘

이 문제에 대한 모델 규모의 영향과 관련하여, 저자들은 크기, 암기 및 추천 성능 사이의 명확한 상관 관계를 관찰했으며, 더 큰 모델은 더 많은 Movielens-1M 데이터 세트를 유지할뿐만 아니라 다운 스트림 작업에서 더 강력하게 수행합니다.

예를 들어, LLAMA-3.1 405B는 평균 암기 율이 12.9%인 반면, LLAMA-3.1 8B는 5.82%만 유지했습니다. 리콜의 거의 55% 감소는 NDCG의 54.23% 감소 및 평가 컷오프에서 HR의 47.36% 감소에 해당했습니다.

패턴은 전체적으로 – 암기 d 명백한 성능도 마찬가지였습니다.

‘이러한 결과는 모델 척도를 높이면 데이터 세트의 암기가 더 크게 증가하여 성능이 향상되었음을 시사합니다.

‘대규모 모델은 더 나은 추천 성능을 보여 주지만 교육 데이터의 잠재적 누출과 관련된 위험을 제기합니다. “

최종 테스트는 암기가 반영되는지 여부를 조사했습니다 인기 편견 Movielens-1M으로 구워졌다. 항목은 상호 작용 빈도로 그룹화되었으며 아래 차트는 대형 모델이 가장 인기있는 항목을 지속적으로 선호한다는 것을 보여줍니다.

3 개의 인기 계층에서 모델 별 항목 범위 : 상위 20% 가장 인기가 있습니다. 중간 20% 중간 정도의 인기; 하단 20% 상호 작용 된 항목.

GPT-4O는 최고 순위 품목의 89.06%를 검색했지만 가장 인기가 가장 적은 63.97% 만 검색했습니다. GPT-4O 미니 및 작은 라마 모델은 모든 밴드에서 훨씬 낮은 커버리지를 보여 주었다. 연구원들은 이러한 추세가 암기가 모델 크기로 확장 될뿐만 아니라 훈련 데이터의 기존 불균형을 증폭 시킨다고 제안합니다.

그들은 계속 : 계속 :

‘우리의 연구 결과는 LLM에서 뚜렷한 인기 편견을 보여 주며, 인기있는 품목의 상위 20%는 최하위 20%보다 훨씬 쉽게 검색하기가 훨씬 쉽습니다.

‘이 추세는 인기있는 영화가 과도하게 표현되어 모델에 의한 불균형 한 암기를 초래하는 교육 데이터 배포의 영향을 강조합니다.’

결론

딜레마는 더 이상 참신하지 않습니다. 훈련 세트가 커짐에 따라 그것들을 치료할 전망은 반비례로 감소합니다. Movielens-1M은 아마도 많은 사람들 중에서도 많은 데이터의 양에 익명으로 감독하지 않고 이러한 광대 한 Corpora에 들어갑니다.

문제는 모든 규모에서 반복되며 자동화에 저항합니다. 모든 해결책은 노력뿐만 아니라 인간의 판단을 요구합니다 – 기계가 공급할 수없는 느리고 잘못된 종류입니다. 이와 관련하여, 새로운 논문은 앞으로 나아갈 길을 제공하지 않습니다.

* 이 맥락에서 커버리지 메트릭은 올바른 종류의 질문을 요청할 때 언어 모델이 재현 할 수있는 원래 데이터 세트의 양을 보여주는 백분율입니다. 모델에 영화 ID가 표시되고 올바른 제목과 장르로 응답하면 성공적인 리콜로 간주됩니다. 그런 다음 성공적인 리콜 수를 데이터 세트의 총 항목 수로 나누어 적용 범위를 생성합니다. 예를 들어, 모델이 1,000 개 중 800 개에 대한 정보를 올바르게 반환하면 적용 범위가 80 %입니다.

2025 년 5 월 16 일 금요일에 처음 출판되었습니다

게시물 대형 언어 모델은 데이터 세트를 테스트하기위한 데이터 세트를 암기하고 있습니다. 먼저 나타났습니다 Unite.ai.

영화 스포일러

방법

데이터 및 테스트

결론

관련된 글: