미국의 최근 연구에 따르면 인기 있는 게임의 실제 성능은 검색 증강 생성 Perplexity 및 Bing Copilot과 같은 (RAG) 연구 시스템은 지난 12개월 동안 헤드라인을 장식했던 마케팅 과대광고와 대중적 채택에 훨씬 미치지 못합니다.
21명의 전문가가 참여하는 광범위한 설문조사 참여가 포함된 이 프로젝트에서는 연구된 RAG 시스템(You Chat, Bing Copilot 및 Perplexity)이 우려할 만한 원인이 되는 16개 이상의 영역을 발견했습니다.
1: 생성된 답변에 객관적인 세부정보가 부족합니다.일반적인 요약이 있고 문맥에 따른 깊이나 뉘앙스가 부족합니다.
2. 인지된 사용자 편견 강화RAG 엔진은 다양한 관점을 제시하지 못하는 경우가 많지만 대신 사용자가 질문을 표현하는 방식을 기반으로 사용자 편견을 추론하고 강화합니다.
3. 지나치게 자신감 넘치는 언어, 특히 경험적으로 확립할 수 없는 주관적인 응답의 경우 사용자가 답변을 정당한 것보다 더 신뢰하게 만들 수 있습니다.
4: 언어가 단순하고 비판적 사고와 창의성이 부족하며, 응답은 깊이 생각하고 분석하는 대신 ‘단순하고’ ‘동의하는’ 정보로 사용자를 효과적으로 후원합니다.
5: 출처를 잘못 표시하고 잘못 인용한 경우, 답변 엔진이 응답을 지원하지 않는 인용 소스를 사용하여 신뢰성에 대한 환상을 조장하는 경우입니다.
6: 추론된 컨텍스트에서 정보를 선별하고, RAG 에이전트는 생성된 경합과 사용자가 무엇인지에 대한 추정을 뒷받침하는 답변을 찾고 있는 것으로 보입니다. 듣고 싶어신뢰할 수 있는 소스의 객관적인 분석을 바탕으로 답변을 제공하는 대신(아마도 시스템의 ‘구운’ LLM 데이터와 쿼리에 대한 응답으로 인터넷에서 즉시 얻은 데이터 간의 충돌을 나타낼 수 있음)
7: 진술을 뒷받침하는 인용 생략응답에 대한 원본 자료가 없습니다.
8: 응답에 대한 논리적 스키마를 제공하지 않으며, 사용자는 시스템이 왜 다른 소스보다 특정 소스를 우선시했는지 질문할 수 없습니다.
9: 제한된 수의 소스, 대부분의 RAG 시스템은 일반적으로 더 다양한 소스를 적용할 수 있는 경우에도 진술에 대한 약 3가지 지원 소스를 제공합니다.
10: 고아 소스, 시스템의 지원 인용 전체 또는 일부의 데이터가 실제로 답변에 포함되지 않은 경우.
11: 신뢰할 수 없는 출처의 사용, 시스템이 실제로 정확한 소스보다 인기 있는 소스(예: SEO 용어)를 선호한 것으로 보이는 경우.
12: 중복 소스, 시스템은 원본 논문의 내용이 본질적으로 동일한 여러 인용을 제공합니다.
13: 필터링되지 않은 소스, 시스템이 사용자에게 제공된 인용을 평가하거나 필터링할 방법을 제공하지 않아 사용자가 신뢰에 대한 선택 기준을 취하도록 강요합니다.
14: 상호작용성이나 탐색성이 부족합니다. 사용자 연구 참가자 중 몇몇은 RAG 시스템이 명확한 질문을 하지 않고 첫 번째 쿼리에서 사용자 의도를 가정한 것에 좌절했습니다.
15: 외부 검증이 필요하며, 사용자가 제공된 응답에 대해 독립적인 검증을 수행해야 한다고 느끼는 경우, ‘검색 대체’로서 RAG의 가정된 편의성이 크게 제거됩니다.
16: 학술 인용 방법의 사용, ~와 같은 [1] 또는 [34]; 이는 학계에서는 표준 관행이지만 많은 사용자에게는 직관적이지 않을 수 있습니다.
연구를 위해 연구진은 인공지능, 의료, 의학, 응용과학, 교육, 사회과학 분야의 박사후 연구원 또는 박사과정 지원자 21명의 전문가를 모았습니다. 참가자들은 (연구자들을 위해) 자신의 합리적인 스키마를 명확히 하기 위해 자신의 사고 과정을 큰 소리로 말하면서 테스트된 RAG 시스템과 상호 작용했습니다.
이 논문은 연구된 세 가지 시스템의 성능에 대한 참가자들의 불안과 우려를 광범위하게 인용합니다.
사용자 연구 방법론은 브라우저 제어 제품군을 사용하여 RAG 시스템의 자동화된 연구로 체계화되었습니다.
‘You.com, Perplexity.ai 및 BingChat과 같은 시스템에 대한 대규모 자동 평가에서는 환각 처리, 지원되지 않는 진술 및 인용 정확성과 관련된 중요한 측면을 포함하여 대부분의 측정 항목에서 허용 가능한 성능을 충족하는 시스템이 없는 것으로 나타났습니다.’
저자들은 새로운 사용자와 숙련된 사용자 모두 연구된 RAG 시스템 클래스를 사용할 때 주의를 기울여야 한다고 길게(그리고 포괄적인 27페이지 논문에서) 주장했습니다. 그들은 또한 연구에서 발견된 단점을 기반으로 미래에 더 큰 기술 감독의 기반을 형성할 수 있는 새로운 측정 시스템을 제안합니다.
그러나 성장하는 RAG 시스템의 공개 사용으로 인해 저자는 에이전트 지원 AI 검색 인터페이스와 관련하여 적절한 법안과 더 높은 수준의 시행 가능한 정부 정책을 옹호하게 되었습니다.
그만큼 공부하다 펜실베이니아 주립대학교와 Salesforce의 연구원 5명이 참여했으며, AI 시대의 검색 엔진: 사실적이고 검증 가능한 소스 인용 응답에 대한 잘못된 약속. 이 작업은 2024년 8월 최신 기술까지 RAG 시스템을 다룹니다.
RAG 절충안
저자는 응답 엔진 내에서 사용되는 LLM(대형 언어 모델)의 네 가지 알려진 단점을 반복하여 작업을 시작합니다.
첫째, 그들은 다음과 같은 경향이 있습니다. 환각 정보그리고 능력이 부족하다 사실관계의 불일치를 발견하다. 둘째, 어려움을 겪는다 정확성 평가 생성된 답변의 맥락에서 인용. 셋째, 그들은 다음과 같은 경향이 있습니다. 데이터를 선호하다 자체적으로 사전 훈련된 가중치를 적용하고 외부에서 검색된 문서의 데이터가 더 최근이거나 더 정확하더라도 거부할 수 있습니다.
마지막으로 RAG 시스템은 사람들을 기쁘게 하는 경향이 있습니다. 아첨하는 행동종종 응답에 포함된 정보의 정확성을 희생합니다.
이러한 모든 경향은 RAG의 함정에 대한 많은 새로운 관찰 중에서 연구의 두 측면에서 확인되었습니다.
이 논문에서는 OpenAI의 검색GPT RAG 제품(출시된 새로운 논문이 제출된 후 지난 주 구독자에게), 설문 조사 결과에서 암시하는* 다음과 같은 근본적인 단점에도 불구하고 RAG 기반 검색 시스템의 사용자 채택을 장려할 가능성이 높습니다.
OpenAI의 ‘SearchGPT’ 출시 ‘구글 검색 킬러’더욱 악화 [concerns]. 이러한 도구에 대한 의존도가 높아짐에 따라 도구의 영향을 이해하는 것이 시급해졌습니다. 린데만 봉인된 지식(Sealed Knowledge)의 개념을 소개합니다. 이는 검색 쿼리를 단일하고 권위 있는 응답으로 압축하고 정보를 효과적으로 탈맥락화하고 범위를 좁혀 이러한 시스템이 어떻게 다양한 답변에 대한 접근을 제한하는지 비판합니다. 사용자 관점.
‘이러한 지식의 “봉인”은 선택 편향을 영속시키고 소외된 관점을 제한합니다.’
연구
저자는 먼저 LinkedIn이나 이메일과 같은 수단으로 초대된 선택된 참가자 24명 중 3명을 대상으로 연구 절차를 테스트했습니다.
나머지 21명을 위한 첫 번째 단계는 다음과 같습니다. 전문 지식 정보 검색참가자들은 40분 세션 동안 평균 약 6번의 검색 문의를 했습니다. 이 섹션에서는 수집 및 검증에 중점을 두었습니다. 사실에 기초한 잠재적인 경험적 해결책이 포함된 질문과 답변.
관련된 두 번째 단계 토론 정보 검색대신 생태학, 채식주의, 정치를 포함한 주관적인 문제를 다루었습니다.
모든 시스템은 생성된 답변에 대한 지원으로 제공된 인용과 최소한 어느 정도의 상호 작용을 허용했기 때문에 연구 대상자는 인터페이스와 최대한 상호 작용하도록 권장되었습니다.
두 경우 모두 참가자들은 RAG 시스템을 통해 문의 사항을 공식화하도록 요청 받았습니다. 그리고 기존 검색 엔진 (이 경우 구글).
세 가지 답변 엔진(You Chat, Bing Copilot 및 Perplexity)이 선택되었습니다. 그 이유는 공개적으로 액세스할 수 있기 때문입니다.
참가자의 대다수는 이미 다양한 주파수의 RAG 시스템 사용자였습니다.
공간의 제약으로 인해 연구에서 발견된 16가지 주요 단점을 철저하게 문서화할 수는 없지만 여기에는 가장 흥미롭고 계몽적인 몇 가지 예를 선택하여 제시합니다.
객관적인 세부정보 부족
이 논문에서는 사용자가 시스템의 응답이 사실적 응답과 주관적 응답 모두에서 객관적인 세부 정보가 부족한 경우가 많다는 점을 지적했습니다. 한 사람은 다음과 같이 말했습니다.
‘실제로 확실한 답변이나 여러 Google 검색을 통해 얻을 수 있는 더 사려 깊은 답변을 제공하지 않고 답변하려고만 했습니다.’
또 다른 관찰 내용은 다음과 같습니다.
‘너무 짧고 모든 것을 많이 요약합니다. [The model] 주장에 대해 더 많은 데이터를 제공해야 하지만 매우 요약되어 있습니다.’
전체적인 관점의 부족
저자는 이러한 뉘앙스와 구체성 부족에 대해 우려를 표명하고, 답변 엔진이 어떤 주장에 대해서도 다양한 관점을 제시하지 못하는 경우가 많았으며, 질문에 대한 사용자 자신의 표현에서 추론된 편견을 편향하는 경향이 있다고 밝혔습니다.
한 참가자는 이렇게 말했습니다.
‘저는 논쟁의 이면에 대해 더 알고 싶습니다. 이것은 모두 소금물입니다. 우리는 반대편과 증거 및 사실을 모르기 때문입니다.’
또 다른 사람은 다음과 같이 말했습니다.
‘그것은 당신에게 논쟁의 양면을 제시하는 것이 아닙니다. 그것은 당신과 논쟁하는 것이 아닙니다. 대신에, [the model] 단지 ‘당신 말이 맞아요… 그 이유는 다음과 같습니다.’라고 말하는 것입니다.
자신감 있는 언어
저자는 세 가지 테스트 시스템 모두 주관적인 문제를 다루는 응답에 대해서도 지나치게 자신감 있는 언어를 사용하는 것으로 나타났습니다. 그들은 이러한 어조가 응답에 대해 부당한 자신감을 불러일으키는 경향이 있다고 주장합니다.
참가자는 다음과 같이 언급했습니다.
‘너무 자신있게 써서 출처를 보지 않고도 확신이 듭니다. 그런데 출처를 보면 안좋아서 다시 의문이 들게 만드네요.’
또 다른 사람은 다음과 같이 말했습니다.
‘누군가가 정답을 정확히 알지 못한다면, 그것이 틀리더라도 이것을 믿을 것입니다.’
잘못된 인용
또 다른 빈번한 문제는 RAG 시스템의 응답에 대한 권위로 인용된 출처의 잘못된 귀속이었습니다. 연구 대상자 중 한 명이 다음과 같이 주장했습니다.
‘[This] 진술이 소스에없는 것 같습니다. 내 말은 그 진술이 사실이라는 뜻입니다. 그것은 유효합니다… 하지만 이 정보가 어디서 나오는지조차 모르겠습니다.’
새로운 논문의 저자의 논평 †:
‘참가자들은 시스템이 다음과 같다고 느꼈습니다. 답변을 정당화하기 위해 인용을 사용함신뢰성에 대한 환상을 만듭니다. 이 외관은 소스를 면밀히 조사한 소수의 사용자에게만 공개되었습니다.’
쿼리에 맞는 정보 선별
로 돌아감 RAG 응답에서 사람들을 기쁘게 하고 아첨하는 행동을 한다는 개념에 대해 연구에서는 한 참가자가 관찰한 것처럼 많은 답변이 주제를 포괄적으로 요약하는 대신 특정 관점을 강조한다는 사실을 발견했습니다.
‘나는 느낀다 [the system] 조작적이다. 약간의 정보만 필요하며 사물의 한 면만 보도록 조종당하는 느낌이 듭니다.’
또 다른 의견은 다음과 같습니다.
‘[The source] 실제로는 장단점이 있으며 전체 그림 없이 이 링크에서 필요한 인수만 선택하도록 선택되었습니다.’
더 자세한 예(및 설문 조사 참가자의 여러 중요한 인용문)를 보려면 독자에게 원본 논문을 참조하십시오.
자동화된 RAG
광범위한 연구의 두 번째 단계에서 연구원들은 브라우저 기반 스크립팅을 사용하여 연구된 세 가지 RAG 엔진으로부터 체계적으로 문의를 요청했습니다. 그런 다음 LLM 시스템(GPT-4o)을 사용하여 시스템의 응답을 분석했습니다.
진술은 다음과 같이 분석되었습니다. 쿼리 관련성 그리고 찬성 대 반대 진술 (즉, 쿼리의 암시적 편향과 관련하여 응답이 찬성, 반대 또는 중립인지 여부입니다.
안 답변 신뢰도 점수 또한 이 자동화된 단계에서 평가되었습니다. 리커트 척도 심리 테스트 방법. 여기서 LLM 심사위원은 두 명의 인간 주석자로 보강되었습니다.
세 번째 작업에는 Jina.ai Reader 도구를 통해 인용된 웹 페이지의 전체 텍스트 콘텐츠를 얻기 위해 웹 스크래핑을 사용하는 작업이 포함되었습니다. 그러나 문서의 다른 부분에서 언급했듯이 대부분의 웹 스크래핑 도구는 대부분의 사람들보다 더 이상 페이월 사이트에 액세스할 수 없습니다(저자는 Perplexity.ai가 다음과 같은 것으로 알려져 있음을 관찰했습니다). 이 장벽을 우회하다).
추가 고려 사항은 답변이 출처를 인용했는지 여부(‘인용 매트릭스’로 계산됨)뿐 아니라 ‘사실 지원 매트릭스'(네 명의 주석 작성자의 도움으로 검증된 측정항목)였습니다.
따라서 8가지 중요한 지표가 얻어졌습니다. 일방적인 답변; 과신한 대답; 관련 진술; 인용되지 않은 출처; 뒷받침되지 않는 진술; 소스 필요성; 인용 정확도; 그리고 인용 철저.
이러한 지표를 테스트한 자료는 사용자 연구 단계에서 엄선된 303개의 질문으로 구성되어 있으며, 테스트된 세 시스템에서 909개의 답변이 나왔습니다.
그 결과에 대해 논문에서는 다음과 같이 말합니다.
‘답변 텍스트와 관련된 세 가지 지표를 살펴보면, 평가된 답변 엔진은 모두 자주(50-80%) 일방적인 답변을 생성하여 답변에 여러 관점을 제시하는 것보다 토론 질문의 유료 공식화에 대한 동의를 선호한다는 것을 알 수 있습니다. Perplexity의 성능은 다른 두 엔진보다 나쁩니다.
‘이 결과는 다음과 일치합니다. [the findings] 우리의 질적 결과. 놀랍게도 Perplexity는 일방적인 답변을 생성할 가능성이 가장 높지만 가장 긴 답변도 생성합니다(평균적으로 답변당 18.8개의 문). 이는 답변의 다양성 부족이 답변의 간결성 때문이 아님을 나타냅니다.
‘즉, 답변 길이를 늘리는 것이 반드시 답변의 다양성을 향상시키는 것은 아닙니다.’
저자는 또한 Perplexity가 자신감 있는 언어(답변의 90%)를 사용할 가능성이 가장 높으며, 대조적으로 다른 두 시스템은 주관적인 내용이 있는 경우 더 조심스럽고 덜 자신감 있는 언어를 사용하는 경향이 있다고 지적합니다.
You Chat은 Perplexity가 8%, Bing Chat이 36%로 답변에 대해 인용되지 않은 소스가 전혀 없는 유일한 RAG 프레임워크였습니다.
모든 모델은 뒷받침되지 않는 진술의 ‘상당한 비율’을 입증했으며 논문은 다음과 같이 선언합니다.†:
‘RAG 프레임워크는 LLM이 소스 문서에 기반한 답변을 생성하도록 강제함으로써 LLM의 환각적 행동을 해결하기 위해 광고됩니다. 그러나 결과는 RAG 기반 답변 엔진이 제공하는 소스에서 지원되지 않는 많은 비율의 진술을 포함하는 답변을 여전히 생성한다는 것을 보여줍니다.‘
또한, 테스트된 모든 시스템은 인용을 통해 자신의 진술을 뒷받침하는 데 어려움을 겪었습니다.
‘유닷컴과 [Bing Chat] 인용의 약 3분의 2가 인용된 진술을 뒷받침하는 출처를 가리키는 등 Perplexity보다 약간 더 나은 성능을 발휘하며, Perplexity는 인용의 절반 이상이 부정확하여 성능이 더 나쁩니다.
‘이 결과는 놀랍습니다. 어떤(출처)에서도 지원되지 않는 진술에 대한 인용이 부정확할 뿐만 아니라, 진술을 뒷받침하는 출처가 존재하더라도 모든 엔진은 여전히 자주 다른 잘못된 출처를 인용하고 사용자에게 올바른 정보 소싱을 제공할 수 있는 기회.
‘즉, 환각적 행동은 출처에 의해 뒷받침되지 않는 진술뿐만 아니라 사용자가 정보 유효성을 확인할 수 없도록 하는 부정확한 인용에서도 나타납니다.‘
저자는 다음과 같이 결론을 내립니다.
‘답변 엔진 중 어떤 것도 대부분의 지표에서 좋은 성능을 얻지 못했으며, 이는 답 엔진에 개선의 여지가 크다는 것을 강조합니다.’
* 저자의 인라인 인용을 하이퍼링크로 전환했습니다. 필요한 경우 형식의 실용성을 고려하여 하이퍼링크에 대한 여러 인용 중 첫 번째 인용을 선택했습니다.
† 내가 강조한 것이 아니라 저자가 강조한 것입니다.
2024년 11월 4일 월요일 첫 게시
게시물 새로운 연구에서 RAG 시스템의 난처함을 포함한 16가지 주요 문제 발견 처음 등장한 Unite.AI.