OpenAI가 2022년 가을에 ChatGPT를 출시하여 기술 산업을 뒤집기 훨씬 전부터 Douwe Kiela는 대규모 언어 모델만으로는 주요 엔터프라이즈 사용 사례에 대한 부분적인 솔루션만 제공할 수 있는 이유를 이미 알고 있었습니다.
네덜란드의 젊은 CEO 상황별 AI 두 개의 선구적인 논문에 깊은 영향을 받았습니다. Google 그리고 오픈AI이를 통해 빠르고 효율적인 변압기 기반 생성 AI 모델과 LLM을 만드는 방법을 개략적으로 설명했습니다.
키엘라와 당시 페이스북에서 근무하던 AI 연구자 팀은 2017년과 2018년에 해당 논문이 발표된 직후 LLM이 심각한 데이터 신선도 문제에 직면하게 될 것이라는 사실을 깨달았습니다.
그들은 LLM과 같은 기초 모델이 방대한 데이터 세트에서 훈련되었을 때, 훈련이 데이터 전반에 걸쳐 “추론”하기 위한 은유적인 “두뇌”를 모델에 주입할 뿐만 아니라, 훈련 데이터는 또한 사용자의 질문에 대한 답을 생성하는 데 활용할 수 있는 모델의 전체 지식을 나타냅니다.
키엘라의 팀은 LLM이 효율적이고 비용 효율적인 방식으로 관련 실시간 데이터에 액세스할 수 없다면, 아무리 똑똑한 LLM이라도 많은 기업의 요구에 크게 도움이 되지 않을 것이라는 사실을 깨달았습니다.
그래서 2020년 봄에 Kiela와 그의 팀은 선구적 논문 그들만의, 세계에 소개된 검색 증강 생성. RAG는 일반적으로 불리는 것으로, 사용자 자신의 파일과 인터넷에서 얻은 정보를 포함하여 기초 모델을 지속적이고 비용 효율적으로 업데이트하는 방법입니다. RAG를 사용하면 LLM의 지식이 더 이상 훈련 데이터에 국한되지 않으므로 모델이 훨씬 더 정확하고 영향력이 있으며 기업 사용자에게 관련성이 높아집니다.
오늘날 Kiela와 Facebook의 전 동료였던 Amanpreet Singh는 실리콘 밸리에 있는 신생 기업인 Contextual AI의 CEO 겸 CTO입니다. 이 회사는 최근 NVIDIA의 투자 부서인 NVentures를 포함한 8,000만 달러 규모의 시리즈 A 라운드를 마감했습니다. Contextual AI는 또한 엔비디아 인셉션스타트업을 육성하기 위해 고안된 프로그램입니다. 직원 수가 약 50명인 이 회사는 연말까지 규모를 두 배로 늘릴 계획이라고 말합니다.
Contextual AI가 제공하는 플랫폼은 RAG 2.0이라고 합니다. 여러 면에서 Kiela와 Singh가 2020년 논문에서 처음 설명한 RAG 아키텍처의 고급 제품화된 버전입니다.
키엘라는 RAG 2.0이 경쟁 제품에 비해 약 10배 더 뛰어난 매개변수 정확도와 성능을 달성할 수 있다고 말했습니다.
즉, 일반적으로 상당한 컴퓨팅 리소스가 필요한 700억 개의 매개변수 모델이 대신 훨씬 더 작은 인프라에서 실행될 수 있으며, 정확도를 희생하지 않고 70억 개의 매개변수만 처리하도록 구축됩니다. 이러한 유형의 최적화는 예상보다 상당히 높은 수준에서 수행할 수 있는 더 작은 컴퓨터로 엣지 사용 사례를 열어줍니다.
“ChatGPT가 시작되었을 때, 우리는 모두가 LLM의 잠재력을 인식했지만 기술이 아직 완성되지 않았다는 것을 깨달은 엄청난 좌절을 보았습니다.”라고 Kiela는 설명했습니다. “우리는 RAG가 많은 문제의 해결책이라는 것을 알았습니다. 그리고 우리는 또한 2020년의 원래 RAG 논문에서 설명한 것보다 훨씬 더 나은 것을 할 수 있다는 것을 알았습니다.”
통합 리트리버와 언어 모델은 큰 성능 향상을 제공합니다.
Contextual AI 솔루션의 핵심은 RAG의 “R”인 검색기 아키텍처와 생성기 또는 용어로 “G”인 LLM 아키텍처를 긴밀하게 통합하는 것입니다. RAG의 작동 방식은 검색기가 사용자의 쿼리를 해석하고 다양한 소스를 확인하여 관련 문서나 데이터를 식별한 다음 해당 정보를 LLM으로 다시 가져오고, LLM은 이 새로운 정보를 추론하여 응답을 생성합니다.
2020년경부터 RAG는 LLM 기반 챗봇을 배포하는 기업을 위한 주요 접근 방식이 되었습니다. 그 결과, RAG 중심 스타트업의 활기찬 생태계가 형성되었습니다.
Contextual AI가 경쟁사와 차별화되는 점 중 하나는 역전파를 통해 검색기를 개선하고 정제하는 방식입니다. 역전파는 신경망 아키텍처의 기반이 되는 알고리즘(가중치와 편향)을 조정하는 프로세스입니다.
그리고 두 개의 별개 신경망, 즉 검색기와 LLM을 훈련하고 조정하는 대신 Contextual AI는 통합된 기능을 제공합니다. 최첨단 플랫폼이를 통해 검색기와 언어 모델을 정렬한 후 역전파를 통해 둘 다 조정합니다.
Kiela는 서로 다른 신경망에서 가중치와 편향을 동기화하고 조정하는 것은 어렵지만, 그 결과 정밀도, 응답 품질 및 최적화에서 엄청난 이득을 얻을 수 있다고 말합니다. 그리고 검색기와 생성기가 매우 긴밀하게 정렬되어 있기 때문에, 그들이 생성하는 응답은 공통 데이터에 기반을 두고 있으며, 이는 다른 RAG 아키텍처보다 모델이 답을 “알지” 못할 때 제공할 수 있는 만들어지거나 “환상적인” 데이터를 포함할 가능성이 훨씬 낮다는 것을 의미합니다.
Kiela는 “우리의 접근 방식은 기술적으로 매우 어렵지만, 검색기와 생성기 간의 결합이 훨씬 더 강해져 시스템이 훨씬 더 정확하고 훨씬 더 효율적이 됩니다.”라고 말했습니다.
최첨단 혁신을 통해 어려운 사용 사례 해결
RAG 2.0은 본질적으로 LLM에 독립적이므로 Mistral이나 Llama와 같은 다양한 오픈소스 언어 모델에서 작동하며 고객의 모델 선호도를 수용할 수 있습니다. 이 스타트업의 리트리버는 다음을 사용하여 개발되었습니다. NVIDIA의 Megatron LM 의 혼합에 엔비디아 H100 그리고 A100 텐서 코어 GPU Google Cloud에 호스팅됨.
모든 RAG 솔루션이 직면하는 중요한 과제 중 하나는 사용자의 질의에 답하는 데 가장 관련성 있는 정보를 식별하는 방법입니다. 해당 정보는 텍스트, 비디오, PDF 등 다양한 형식으로 저장되어 있을 수 있습니다.
문맥적 AI는 다양한 리트리버의 하위 전문 분야를 다양한 데이터 형식에 맞춰 조정하는 “리트리버 혼합” 방식을 통해 이러한 과제를 극복합니다.
문맥별 AI는 RAG 유형과 신경망 재순위 알고리즘을 결합하여 다양한 형식으로 저장된 정보를 식별합니다. 이러한 정보는 함께 사용되면 사용자 질의에 최적으로 응답합니다.
예를 들어, 쿼리와 관련된 일부 정보가 비디오 파일 형식으로 저장되어 있는 경우 관련 데이터를 식별하기 위해 배치된 RAG 중 하나는 그래프 RAG일 가능성이 높으며, 이는 비디오와 같은 비정형 데이터의 시간적 관계를 이해하는 데 매우 유용합니다. 다른 데이터가 텍스트 또는 PDF 형식으로 저장된 경우 벡터 기반 RAG가 동시에 배치됩니다.
그러면 신경망 재순위 지정기가 검색된 데이터를 구성하는 데 도움을 주고, 우선순위가 지정된 정보는 LLM에 공급되어 초기 쿼리에 대한 답변을 생성합니다.
“성능을 극대화하기 위해 단일 검색 접근 방식을 거의 사용하지 않습니다. 대개 하이브리드 방식인데, 서로 다르고 상호 보완적인 강점이 있기 때문입니다.” 키엘라가 말했습니다. “정확히 적절한 혼합 방식은 사용 사례, 기반 데이터, 사용자 쿼리에 따라 달라집니다.”
RAG와 LLM 아키텍처를 본질적으로 융합하고 관련 정보를 찾기 위한 많은 경로를 제공함으로써 Contextual AI는 고객에게 상당히 향상된 성능을 제공합니다. 더 높은 정확도 외에도 RAG와 LLM의 신경망 간의 API 호출이 줄어들어 대기 시간이 줄어듭니다.
고도로 최적화된 아키텍처와 낮은 컴퓨팅 요구 사항 덕분에 RAG 2.0은 클라우드, 온프레미스 또는 완전히 분리된 상태에서 실행될 수 있습니다. 이는 핀테크와 제조부터 의료 기기와 로봇 공학에 이르기까지 광범위한 산업과 관련이 있습니다.
키엘라는 “우리가 집중하는 사용 사례는 정말 어려운 사례입니다.”라고 말했습니다. “대본을 읽고, 기본적인 질문에 답하거나 요약하는 것 외에도, 우리는 회사에 많은 비용을 절감하거나 훨씬 더 생산적으로 만들어 줄 매우 높은 가치의 지식 집약적 역할에 집중하고 있습니다.”