AI 뉴스허브

대형 언어 모델은 데이터 세트를 테스트하기위한 데이터 세트를 암기하고 있습니다.

대형 언어 모델은 데이터 세트를 테스트하기위한 데이터 세트를 암기하고 있습니다.

AI에 의존하여 무엇을보고 읽거나 구매 해야하는지, 새로운 연구에 따르면 일부 시스템은 이러한 결과를 기반으로 할 수 있습니다. 메모리 기술보다는 : 유용한 제안을하는 법을 배우는 대신 모델은 종종 데이터를 평가하는 데 사용되는 데이터 세트의 항목을 회상하여 사용자에게 구식 또는 제대로 일치 할 수있는 성능과 권장 사항을 과대 평가합니다.

머신 러닝에서 a 테스트 스플릿 훈련 된 모델이 훈련 된 재료와 비슷하지만 동일하지 않은 문제를 해결하는 법을 배웠는지 확인하는 데 사용됩니다.

따라서 새로운 AI ‘Dog-Breed 인식’모델이 개 100,000 개 사진의 데이터 세트에 대한 교육을 받으면 일반적으로 80/20 분할-모델을 훈련시키기 위해 제공되는 80,000 장의 사진이 있습니다. 그리고 20,000 장의 사진이 뒤로 물러서서 완성 된 모델을 테스트하기위한 재료로 사용했습니다.

AI의 교육 데이터에 실수로 ‘비밀’20% 테스트 분할 섹션이 포함된다면, 모델은 이미 답변을 알고 있기 때문에 이러한 테스트를 수행 할 것입니다 (이미 도메인 데이터의 100%를 이미 보았습니다). 물론 이것은 생산 상황에서 새로운 ‘라이브’데이터에서 나중에 모델이 어떻게 수행되는지 정확하게 반영하지 않습니다.

영화 스포일러

시험에서 AI 부정 행위의 문제는 모델 자체의 규모로 단계적으로 증가했습니다. 오늘날의 시스템은 광대하고 무차별적인 웹 스프레이링 된 코퍼레이션에 대해 교육을 받았기 때문에 일반적인 크롤링벤치 마크 데이터 세트 (예 : Hold-back 20%)가 훈련 믹스에 미끄러질 가능성은 더 이상 에지 케이스가 아니라 기본값-다음으로 알려진 증후군입니다. 데이터 오염; 그리고이 척도에서, 그러한 오류를 잡을 수있는 수동 큐 레이션은 논리적으로 불가능합니다.

이 사례는 이탈리아의 Politecnico di Bari의 새로운 논문에서 탐구되며, 연구원들은 단일 영화 추천 데이터 세트의 큰 역할에 중점을 둔다. Movielens-1M그들은 부분적으로 주장했다 암기 훈련 중에 여러 주요 AI 모델에 의해.

이 특정 데이터 세트가 추천 시스템 테스트에 매우 널리 사용되기 때문에 모델의 메모리에있는 존재는 잠재적으로 테스트를 의미가 없게 만듭니다. 실제로 인텔리전스로 보이는 것은 실제로 간단한 리콜 일 수 있으며 직관적 인 권장 기술처럼 보이는 것은 이전 노출을 반영하는 통계적 에코 일 수 있습니다.

저자 상태 :

‘우리의 연구 결과는 LLM이 Movielens-1M 데이터 세트, 항목, 사용자 속성 및 상호 작용 이력을 다루는 광범위한 지식을 가지고 있음을 보여줍니다. 특히 간단한 프롬프트는 GPT-4O가 거의 80%를 복구 할 수있게합니다. [the names of most of the movies in the dataset].

‘검사 된 모델 중 어느 것도이 지식이 없으며, Movielens-1M 데이터는 교육 세트에 포함되어 있음을 시사합니다. 우리는 사용자 속성과 상호 작용 이력을 검색하는 데 유사한 경향을 관찰했습니다. ‘

요약 새로운 종이 제목이 있습니다 LLMS는 추천 데이터 세트를 암기합니까? Movielens-1M에 대한 예비 연구6 명의 PoliteCnico 연구원들로부터 온 것입니다. 그들의 작업을 재현하기위한 파이프 라인이있었습니다 Github에서 제공됩니다.

방법

문제의 모델이 진정으로 배우거나 단순히 회상했는지 여부를 이해하기 위해 연구원들은이 맥락에서 암기가 무엇을 의미하는지 정의로 시작했으며, 올바른 방식으로 프롬프트 될 때 모델이 Movielens-1M 데이터 세트에서 특정 정보를 검색 할 수 있는지 테스트하여 시작했습니다.

모델에 영화의 ID 번호가 표시되어 제목과 장르를 생성 할 수있는 경우 항목을 암기하는 것으로 간주됩니다. 사용자 ID에서 사용자 (예 : 연령, 직업 또는 우편 번호)에 대한 세부 정보를 사용자의 암기로 계산할 수있는 경우; 알려진 이전의 서열에서 사용자의 다음 영화 등급을 재현 할 수 있다면 모델이 리콜 될 수 있다는 증거로 간주되었습니다. 특정 상호 작용 데이터일반적인 패턴을 배우기보다는.

이러한 각 형태의 리콜은 신중하게 쓰여진 프롬프트를 사용하여 테스트되었으며, 새로운 정보를 제공하지 않고 모델을 고무시키기 위해 제작되었습니다. 응답이 정확할수록 교육 중에 모델이 이미 해당 데이터에 직면했을 가능성이 높습니다.

새 논문에 사용 된 평가 프로토콜에 대한 제로 샷 프롬프트. 출처 : https://arxiv.org/pdf/2505.10212

새 논문에 사용 된 평가 프로토콜에 대한 제로 샷 프롬프트. 출처 : https://arxiv.org/pdf/2505.10212

데이터 및 테스트

적절한 데이터 세트를 큐 레이션하기 위해 저자는 필드의 주요 회의에서 최근 논문을 조사했습니다. ACM은 2024를 재활용합니다 그리고 acm cow 2024. Movielens-1M은 가장 자주 나타나 5 번의 제출물 중 1 개 이상으로 인용되었습니다. 부터 초기 연구 비슷한 결론에 도달했지만 이것은 놀라운 결과가 아니라 데이터 세트의 지배력을 확인했습니다.

Movielens-1M은 세 가지 파일로 구성됩니다. 영화 산업. 저것ID, 제목 및 장르 별 영화를 나열합니다. user.dat사용자 ID를 기본 전기 분야에 매핑합니다. 그리고 등급누가 무엇을 평가했는지, 언제.

이 데이터가 큰 언어 모델에 의해 암기되었는지 여부를 알아 내기 위해 연구원들은 종이 대형 언어 모델에서 교육 데이터 추출그리고 나중에 후속 작업 언어 모델에서 데이터 추출을 훈련하기위한 트릭 백.

이 방법은 직접적입니다. 데이터 세트 형식을 반영하는 질문을 제시하고 모델이 올바르게 답변하는지 확인하십시오. 제로 샷,,, 생각의 사슬그리고 소수의 프롬프트 테스트되었고, 모델에 몇 가지 예가 표시되는 마지막 방법이 가장 효과적이라는 것이 밝혀졌습니다. 더 정교한 접근 방식이 더 높은 리콜을 산출 할 수 있더라도, 이것은 기억 된 것을 밝히기에 충분한 것으로 간주되었습니다.

최소한의 컨텍스트로 쿼리 될 때 모델이 특정 Movielens-1M 값을 재현 할 수 있는지 테스트하는 데 사용되는 소수의 프롬프트.

암기를 측정하기 위해 연구원들은 세 가지 형태의 리콜을 정의했습니다. ,,, 사용자그리고 상호 작용. 이 테스트는 모델이 ID에서 영화 제목을 검색하거나 사용자 ID로부터 사용자 세부 정보를 생성 할 수 있는지, 또는 이전 소지를 기반으로 한 사용자의 다음 등급을 예측할 수 있는지 여부를 조사했습니다. 각각은 커버리지 메트릭*을 사용하여 점수를 매겼습니다.

테스트 된 모델은있었습니다 GPT-4O; GPT-4O 미니; GPT-3.5 터보; 전화 -3.3 70b; llama-3.2 3b; Call-3.2 1B; Call-3.1 405b; Call-3.1 70b; 그리고 Call-3.1 8b. 모두 함께 실행되었습니다 온도 0으로 설정하고 top_p 하나로 설정하십시오 빈도와 존재 처벌이 비활성화되었습니다. 고정 임의의 씨앗 실행에 걸쳐 일관된 출력을 보장합니다.

movies.dat, users.dat 및 ratings.dat에서 검색된 Movielens-1M 항목의 비율은 버전별로 그룹화되고 매개 변수로 정렬됩니다.

Movielens-1M이 얼마나 깊이 흡수되었는지 조사하기 위해 연구자들은 각 모델을 데이터 세트의 세 가지 (위에서 언급 한) 파일의 정확한 항목에 대한 프롬프트했습니다. 영화 산업. 저것,,, user.dat그리고 등급.

위에 표시된 초기 테스트의 결과는 GPT와 LLAMA 패밀리뿐만 아니라 모델 크기에도 급격한 차이를 나타냅니다. GPT-4O 및 GPT-3.5 Turbo는 데이터 세트의 많은 부분을 쉽게 복구하는 반면, 대부분의 오픈 소스 모델은 동일한 재료의 일부만 리콜하여 사전 준비 에서이 벤치 마크에 대한 고르지 않은 노출을 시사합니다.

이것들은 작은 마진이 아닙니다. 세 가지 파일 모두에서 가장 강력한 모델은 단순히 약한 모델을 능가하지 않았지만 전체 부분 Movielens-1M의.

GPT-4O의 경우, 적용 범위는 데이터 세트의 사소한 점유율이 직접 암기되었음을 시사하기에 충분히 높았습니다.

저자 상태 :

‘우리의 연구 결과는 LLM이 Movielens-1M 데이터 세트, 항목, 사용자 속성 및 상호 작용 이력을 다루는 광범위한 지식을 가지고 있음을 보여줍니다.

‘특히 간단한 프롬프트를 통해 GPT-4O는 MovieId :: 제목 레코드의 거의 80%를 복구 할 수 있습니다. 검사 된 모델 중 어느 것도이 지식이 없으며, Movielens-1M 데이터는 교육 세트에 포함되어 있음을 시사합니다.

‘우리는 사용자 속성과 상호 작용 이력을 검색하는 데 비슷한 추세를 관찰했습니다.’

다음으로 저자는 각 모델이 추천 시스템으로 작용하도록 촉구하여 추천 작업에 대한 암기의 영향을 테스트했습니다. 성능을 벤치마킹하기 위해 출력을 7 가지 표준 방법과 비교했습니다. userknn; Itemknn; BPRMF; 쉬움아르 자형; Lightgcn; Mostpop; 그리고 무작위.

Movielens-1M 데이터 세트는 80/20을 훈련 및 테스트 세트로 분할했습니다. 떠나기 실제 사용을 시뮬레이션하는 샘플링 전략. 사용 된 지표는있었습니다 적중률 (hr@[n]); 그리고 NDCG(@[n]) : :

표준 기준선 및 LLM 기반 방법에 대한 권장 정확도. 모델은 가족별로 그룹화되며 매개 변수 수에 의해 주문되며, Bold 값은 각 그룹 내에서 가장 높은 점수를 나타냅니다.

여기서 여러 대형 언어 모델은 모든 메트릭에서 전통적인 기준선을 능가했으며 GPT-4O는 모든 칼럼에서 넓은 리드를 확립하고 GPT-3.5 터보 및 LLAMA-3.1 405B와 같은 중간 크기의 모델을 BPRMF 및 LightGCN과 같은 벤치 마크 방법을 지속적으로 능가했습니다.

작은 LLAMA 변형 중에서 성능은 급격히 다양했지만 LLAMA-3.2 3B는 그룹에서 HR@1이 가장 높습니다.

저자들은 결과적으로 암기 된 데이터가 특히 가장 강력한 모델에 대해 추천 스타일 프롬프트에서 측정 가능한 이점으로 해석 될 수 있다고 지적합니다.

추가 관찰에서 연구원들은 계속합니다.

‘권장 성능이 뛰어난 것처럼 보이지만 표 2를 표 1과 비교하면 흥미로운 패턴이 나타납니다. 각 그룹 내에서 암기가 높은 모델은 추천 작업에서 우수한 성능을 보여줍니다.

예를 들어, GPT-4O는 GPT-4O MINI를 능가하고 LLAMA-3.1 405B는 LLAMA-3.1 70B 및 8B를 능가합니다.

“이러한 결과는 교육 데이터에서 유출 된 데이터 세트에서 LLM을 평가하는 것이 일반화보다는 암기에 의해 과도한 최적의 성능으로 이어질 수 있음을 강조합니다. ‘

이 문제에 대한 모델 규모의 영향과 관련하여, 저자들은 크기, 암기 및 추천 성능 사이의 명확한 상관 관계를 관찰했으며, 더 큰 모델은 더 많은 Movielens-1M 데이터 세트를 유지할뿐만 아니라 다운 스트림 작업에서 더 강력하게 수행합니다.

예를 들어, LLAMA-3.1 405B는 평균 암기 율이 12.9%인 반면, LLAMA-3.1 8B는 5.82%만 유지했습니다. 리콜의 거의 55% 감소는 NDCG의 54.23% 감소 및 평가 컷오프에서 HR의 47.36% 감소에 해당했습니다.

패턴은 전체적으로 – 암기 d 명백한 성능도 마찬가지였습니다.

‘이러한 결과는 모델 척도를 높이면 데이터 세트의 암기가 더 크게 증가하여 성능이 향상되었음을 시사합니다.

‘대규모 모델은 더 나은 추천 성능을 보여 주지만 교육 데이터의 잠재적 누출과 관련된 위험을 제기합니다. “

최종 테스트는 암기가 반영되는지 여부를 조사했습니다 인기 편견 Movielens-1M으로 구워졌다. 항목은 상호 작용 빈도로 그룹화되었으며 아래 차트는 대형 모델이 가장 인기있는 항목을 지속적으로 선호한다는 것을 보여줍니다.

3 개의 인기 계층에서 모델 별 항목 범위 : 상위 20% 가장 인기가 있습니다. 중간 20% 중간 정도의 인기; 하단 20% 상호 작용 된 항목.

GPT-4O는 최고 순위 품목의 89.06%를 검색했지만 가장 인기가 가장 적은 63.97% 만 검색했습니다. GPT-4O 미니 및 작은 라마 모델은 모든 밴드에서 훨씬 낮은 커버리지를 보여 주었다. 연구원들은 이러한 추세가 암기가 모델 크기로 확장 될뿐만 아니라 훈련 데이터의 기존 불균형을 증폭 시킨다고 제안합니다.

그들은 계속 : 계속 :

‘우리의 연구 결과는 LLM에서 뚜렷한 인기 편견을 보여 주며, 인기있는 품목의 상위 20%는 최하위 20%보다 훨씬 쉽게 검색하기가 훨씬 쉽습니다.

‘이 추세는 인기있는 영화가 과도하게 표현되어 모델에 의한 불균형 한 암기를 초래하는 교육 데이터 배포의 영향을 강조합니다.’

결론

딜레마는 더 이상 참신하지 않습니다. 훈련 세트가 커짐에 따라 그것들을 치료할 전망은 반비례로 감소합니다. Movielens-1M은 아마도 많은 사람들 중에서도 많은 데이터의 양에 익명으로 감독하지 않고 이러한 광대 한 Corpora에 들어갑니다.

문제는 모든 규모에서 반복되며 자동화에 저항합니다. 모든 해결책은 노력뿐만 아니라 인간의 판단을 요구합니다 – 기계가 공급할 수없는 느리고 잘못된 종류입니다. 이와 관련하여, 새로운 논문은 앞으로 나아갈 길을 제공하지 않습니다.

* 이 맥락에서 커버리지 메트릭은 올바른 종류의 질문을 요청할 때 언어 모델이 재현 할 수있는 원래 데이터 세트의 양을 보여주는 백분율입니다. 모델에 영화 ID가 표시되고 올바른 제목과 장르로 응답하면 성공적인 리콜로 간주됩니다. 그런 다음 성공적인 리콜 수를 데이터 세트의 총 항목 수로 나누어 적용 범위를 생성합니다. 예를 들어, 모델이 1,000 개 중 800 개에 대한 정보를 올바르게 반환하면 적용 범위가 80 %입니다.

2025 년 5 월 16 일 금요일에 처음 출판되었습니다

게시물 대형 언어 모델은 데이터 세트를 테스트하기위한 데이터 세트를 암기하고 있습니다. 먼저 나타났습니다 Unite.ai.

Exit mobile version