Amazon의 AI 기반 쇼핑 도우미 Rufus를 구축한 방법

Date:

“추운 골프에는 무엇이 필요한가요?”

“트레일 슈즈와 런닝 슈즈의 차이점은 무엇인가요?”

“5세 아이에게 가장 좋은 공룡 장난감은 무엇인가요?”

다음은 고객이 오프라인 매장에서 도움을 주는 판매 직원에게 물어볼 수 있는 개방형 질문 중 일부입니다. 하지만 고객이 온라인 쇼핑을 하면서 비슷한 질문에 대한 답을 어떻게 얻을 수 있을까요?

아마존의 대답은 루퍼스생성 AI로 구동되는 쇼핑 도우미입니다. Rufus는 Amazon 앱 내에서 다양한 질문에 답함으로써 Amazon 고객이 더 많은 정보를 바탕으로 쇼핑 결정을 내릴 수 있도록 돕습니다. 사용자는 제품 세부 정보를 확인하고, 옵션을 비교하고, 제품 추천을 받을 수 있습니다.

나는 과학기술자들로 구성된 팀을 이끌고 있습니다. 대규모 언어 모델 (LLM)은 Rufus에 힘을 실어줍니다. 유용한 대화형 쇼핑 도우미를 구축하기 위해 우리는 생성 AI의 여러 측면에 걸쳐 혁신적인 기술을 사용했습니다. 우리는 쇼핑에 특화된 맞춤형 LLM을 구축했습니다. 다양한 새로운 증거 소스를 사용하여 검색 증강 생성을 사용했습니다. 반응을 개선하기 위해 강화 학습을 활용합니다. 추론 효율성을 향상하고 대기 시간을 줄이기 위해 고성능 컴퓨팅을 발전시켰습니다. 쇼핑객에게 더 빠르게 답변을 제공하기 위해 새로운 스트리밍 아키텍처를 구현했습니다.

Rufus가 답변을 얻는 방법

대부분의 LLM은 먼저 모델의 전반적인 지식과 기능을 알려주는 광범위한 데이터세트에 대해 교육을 받은 다음 특정 도메인에 맞게 맞춤화됩니다. 우리의 목표는 처음부터 전체 Amazon 카탈로그, 고객 리뷰 및 커뮤니티 Q&A 게시물의 정보 등 쇼핑 데이터에 대해 교육하는 것이었기 때문에 Rufus에는 적합하지 않았습니다. 그래서 우리 과학자들은 웹상의 공개 정보와 함께 이러한 데이터 소스에 대해 훈련된 맞춤형 LLM을 구축했습니다.

그러나 질문할 수 있는 광범위한 질문에 답할 준비를 하려면 Rufus는 초기 훈련 데이터를 뛰어넘어 새로운 정보를 가져올 수 있는 권한을 부여받아야 합니다. 예를 들어, “이 팬은 식기세척기에 사용할 수 있나요?”라는 질문에 대답합니다. LLM은 먼저 질문을 분석한 다음 어떤 검색 소스가 답변을 생성하는 데 도움이 될지 파악합니다.

우리의 LLM은 검색 증강 생성 (RAG) 제품 카탈로그, 고객 리뷰, 커뮤니티 Q&A 게시물 등 신뢰할 수 있는 것으로 알려진 소스에서 정보를 가져옵니다. 관련 Amazon Stores API를 호출할 수도 있습니다. 우리의 RAG 시스템은 사용된 데이터 소스가 다양하고 질문에 따라 각 소스의 관련성이 다르기 때문에 엄청나게 복잡합니다.

모든 LLM과 생성 AI의 모든 사용은 진행 중인 작업입니다. Rufus가 시간이 지남에 따라 나아지려면 어떤 반응이 도움이 되고 어떤 반응이 개선될 수 있는지 학습해야 합니다. 고객은 해당 정보의 가장 좋은 소스입니다. Amazon은 고객이 Rufus 피드백을 제공하여 답변이 마음에 들었는지, 마음에 들지 않았는지 모델에 알리도록 권장하며, 이러한 응답은 강화 학습 프로세스에 사용됩니다. 시간이 지남에 따라 Rufus는 고객 피드백을 통해 학습하고 응답을 개선합니다.

Rufus의 특수 칩 및 처리 기술

Rufus는 눈에 띄는 지연 없이 동시에 수백만 명의 고객과 소통할 수 있어야 합니다. 생성 AI 애플리케이션은 특히 Amazon 규모에서 매우 컴퓨팅 집약적이기 때문에 이는 특히 어렵습니다.

응답 생성 지연을 최소화하는 동시에 시스템이 처리할 수 있는 응답 수를 최대화하기 위해 Amazon의 특수 AI 칩을 사용했습니다. 트레이닝니움 그리고 추론코어와 통합됨 아마존 웹 서비스 (AWS). 우리는 모델 추론 효율성을 향상시키는 최적화를 위해 AWS와 협력했으며 이를 모든 AWS 고객에게 제공했습니다.

그러나 사용자 요청을 일괄 처리하는 표준 방법은 LLM이 각 응답을 구성할 때 생성할 토큰(이 경우 텍스트 단위) 수를 예측하기 어렵기 때문에 대기 시간 및 처리량 문제를 야기합니다. 우리 과학자들은 AWS와 협력하여 Rufus가 지속적인 일괄 처리는 일괄 처리의 모든 요청이 완료될 때까지 기다리지 않고 일괄 처리의 첫 번째 요청이 완료되자마자 모델이 새 요청 처리를 시작할 수 있도록 하는 새로운 LLM 기술입니다. 이 기술은 AI 칩의 계산 효율성을 향상시키고 쇼핑객이 신속하게 답변을 얻을 수 있도록 해줍니다.

우리는 Rufus가 어떤 질문에든 가장 관련성이 높고 유용한 답변을 제공하기를 원합니다. 때때로 이는 긴 형식의 텍스트 답변을 의미하지만 때로는 짧은 형식의 텍스트이거나 스토어를 탐색하기 위한 클릭 가능한 링크일 수도 있습니다. 그리고 제시된 정보가 논리적 흐름을 따르는지 확인해야 했습니다. 항목을 올바르게 그룹화하고 형식을 지정하지 않으면 고객에게 그다지 도움이 되지 않는 혼란스러운 응답으로 끝날 수 있습니다.

이것이 바로 Rufus가 응답 전달을 위해 고급 스트리밍 아키텍처를 사용하는 이유입니다. 고객은 긴 답변이 완전히 생성될 때까지 기다릴 필요가 없습니다. 대신 나머지가 생성되는 동안 답변의 첫 번째 부분을 얻습니다. Rufus는 스트리밍 응답을 올바른 데이터로 채웁니다(이 프로세스는 수화) 내부 시스템에 쿼리를 수행합니다. 응답에 대한 콘텐츠를 생성하는 것 외에도 다양한 응답 요소가 표시되는 방법을 지정하는 형식 지정 지침도 생성합니다.

Amazon은 고객 경험을 개선하기 위해 25년 넘게 AI를 사용해 왔지만 생성 AI는 새롭고 혁신적인 것을 의미합니다. 우리는 Rufus와 Rufus가 고객에게 제공하는 새로운 기능을 자랑스럽게 생각합니다.

Share post:

Subscribe

Popular

More like this
Related

생성 AI 활용: 업계 리더를 위한 대담한 도전과 보상

조직이 AI의 잠재력을 계속 탐구함에 따라 Microsoft 고객은 워크플로를...

식품 안전 분야에서 AI의 필요성 증가

특히 광범위한 조류독감 발생의 영향이 농업 부문 전반에 걸쳐...

12월23일 정부지원사업 신규 공고 리스트 (12건) _ (파일 재가공/재배포 가능)

12월 23일 12건<12/23지원사업 신규 공고 목록> *전 영업일인 12/20에 올라온...

Waste Robotics와 Greyparrot가 분류 로봇을 강화하는 방법

Waste Robotics는 FANUC 로봇 팔을 사용하여 안정적이고 정확한 피킹을...