챗봇이 존재한 이후로 그들은 사물을 만들어냈습니다. 그러한 “환각”은 내재적인 부분 AI 모델이 작동하는 방식에 대한 것입니다. 그러나 이는 Google과 같이 AI에 큰 돈을 걸고 있는 회사에게는 큰 문제입니다. 왜냐하면 AI가 생성하는 응답을 신뢰할 수 없게 만들기 때문입니다.
Google은 오늘 이 문제를 해결하기 위한 도구를 출시합니다. DataGemma라고 불리는 이 도구는 두 가지 방법을 사용하여 대규모 언어 모델이 신뢰할 수 있는 데이터에 대한 응답을 사실 확인하고 사용자에게 출처를 보다 투명하게 인용할 수 있도록 돕습니다.
두 가지 방법 중 첫 번째는 Retrieval-Interleaved Generation(RIG)이라고 하며, 일종의 사실 확인자 역할을 합니다. 사용자가 “세계에서 재생 에너지원 사용이 증가했나요?”와 같은 질문으로 모델을 유도하면 모델은 “초안” 답변을 내놓습니다. 그런 다음 RIG는 초안 답변의 어떤 부분을 Google의 데이터 커먼즈유엔이나 질병통제예방센터와 같은 신뢰할 수 있는 출처의 데이터와 통계를 대량으로 보관합니다. 그런 다음, 이러한 검사를 실행하고 잘못된 원래 추측을 올바른 사실로 바꿉니다. 또한 사용자에게 출처를 인용합니다.
다른 대규모 언어 모델에서 일반적으로 사용되는 두 번째 방법은 검색 증강 생성(RAG)이라고 합니다. “파키스탄은 세계적 건강 목표에 대해 어떤 진전을 이루었는가?”와 같은 프롬프트를 고려하십시오. 이에 대한 응답으로 모델은 안전한 식수에 대한 접근성, B형 간염 예방 접종 및 기대 수명에 대한 정보와 같이 데이터 커먼즈의 어떤 데이터가 질문에 답하는 데 도움이 될 수 있는지 조사합니다. 이러한 수치를 바탕으로 모델은 데이터 위에 답을 구축하고 출처를 인용합니다.
“저희의 목표는 Data Commons를 사용하여 LLM의 추론을 강화하고, 실제 통계 데이터를 기반으로 하여 출처를 다시 찾을 수 있도록 하는 것이었습니다.” Google의 Data Commons 책임자인 Prem Ramaswami의 말입니다. 그는 그렇게 하면 “더욱 신뢰할 수 있고 안정적인 AI가 만들어질 것”이라고 말합니다.
지금은 연구자들에게만 제공되지만, 라마스와미는 더 많은 테스트를 거친 후 접근성이 더 확대될 수 있다고 말합니다. 기대했던 대로 작동한다면, 구글이 검색 엔진에 AI를 더 깊이 내장하려는 계획에 큰 도움이 될 수 있습니다.
그러나 여기에는 많은 단서가 있습니다. 첫째, 이 방법의 유용성은 관련 데이터가 백과사전이라기보다는 데이터 저장소에 가까운 Data Commons에 있는지 여부에 따라 제한됩니다. 이란의 GDP는 알려줄 수 있지만, 팔루자 1차 전투의 날짜나 테일러 스위프트가 가장 최근 싱글을 발매한 날짜는 확인할 수 없습니다. 사실, Google의 연구원들은 RIG 방법이 약 75%의 시험 문제에서 Data Commons에서 사용 가능한 데이터를 얻을 수 없다는 것을 발견했습니다. 그리고 도움이 되는 데이터가 실제로 Data Commons에 보관되어 있더라도 이 모델은 항상 그것을 찾기 위한 올바른 질문을 공식화하지는 않습니다.
두 번째는 정확도 문제입니다. 연구자들은 RAG 방법을 테스트할 때 모델이 6%에서 20%의 시간 동안 잘못된 답변을 제공했다는 것을 발견했습니다. 반면 RIG 방법은 Data Commons에서 약 58%의 시간 동안만 올바른 통계를 가져왔습니다(하지만 이는 Google의 대규모 언어 모델의 5%에서 17%의 정확도 비율에 비해 크게 개선된 것입니다. ~ 아니다 데이터 커먼즈에 ping을 보냅니다).
라마스와미는 DataGemma의 정확도가 점점 더 많은 데이터로 훈련됨에 따라 향상될 것이라고 말합니다. 초기 버전은 약 700개의 질문으로만 훈련되었고, 모델을 미세 조정하려면 그의 팀이 생성된 각 개별 사실을 수동으로 확인해야 했습니다. 모델을 더욱 개선하기 위해 팀은 그 데이터 세트를 수백 개의 질문에서 수백만 개로 늘릴 계획입니다.