Gladia의 창립자이자 CEO인 Jean-Louis Quéguiner – 인터뷰 시리즈

Date:

장 루이 퀘귀네르 Gladia의 창립자이자 CEO입니다. 그는 이전에 유럽 최고의 클라우드 제공업체 중 하나인 OVHcloud에서 데이터, AI 및 양자 컴퓨팅 그룹 부사장을 역임했습니다. 그는 캐나다 퀘벡 대학교와 파리 Arts et Métiers ParisTech에서 기호 AI 석사 학위를 취득했습니다. 그는 경력을 쌓는 동안 금융 데이터 분석, 실시간 디지털 광고를 위한 기계 학습 애플리케이션, 음성 AI API 개발 등 다양한 산업 분야에서 중요한 직책을 맡았습니다.

산업, 언어 및 기술 스택 전반에 걸쳐 제품에 원활하게 통합할 수 있는 고급 오디오 전사 및 실시간 AI 솔루션을 제공합니다. 최첨단 ASR 및 생성 AI 모델을 최적화하여 정확하고 지연 없는 음성 및 언어 처리를 보장합니다. Gladia의 플랫폼은 또한 통화 및 회의에서 통찰력과 메타데이터를 실시간으로 추출하여 판매 지원 및 자동화된 고객 지원과 같은 주요 기업 사용 사례를 지원합니다.

음성-텍스트(STT) 기술의 과제를 해결하도록 영감을 준 것은 무엇이며, 시장에서 어떤 격차를 보았습니까?

제가 Gladia를 설립했을 때 초기 목표는 광범위한 것이었습니다. 복잡한 기술에 접근할 수 있게 만드는 AI 회사였습니다. 그러나 더 깊이 파고들면서 음성 기술이 가장 취약하면서도 집중해야 할 가장 중요한 영역이라는 것이 분명해졌습니다.

음성은 일상생활의 중심이며, 대부분의 의사소통은 음성을 통해 이루어집니다. 그러나 개발자가 음성 데이터 작업에 사용할 수 있는 도구는 속도, 정확성, 가격 측면에서 특히 언어 전반에 있어서 부적절했습니다.

저는 이 문제를 해결하고 음성 기술의 복잡성을 풀어 간단하고 효율적이며 강력하고 접근하기 쉬운 기술로 다시 포장하고 싶었습니다. 개발자는 AI 모델의 복잡성이나 음성 인식의 컨텍스트 길이의 미묘한 차이에 대해 걱정할 필요가 없습니다. 나의 목표는 기본 모델이나 기술에 관계없이 원활하게 작동하는 진정한 플러그 앤 플레이 솔루션인 엔터프라이즈급 음성-텍스트 API를 만드는 것이었습니다.

기업용 전사 솔루션을 구축하는 동안 직면한 고유한 문제에는 어떤 것이 있습니까?

음성 인식과 관련하여 이 분야의 두 가지 핵심 성능 지표인 속도와 정확성은 설계상 반비례합니다. 이는 하나를 개선하면 적어도 어느 정도 다른 하나가 손상된다는 것을 의미합니다. 비용 요소는 대부분 속도와 품질 사이에서 공급자의 선택에 따라 결정됩니다.

Gladia를 구축할 때 우리의 목표는 이 두 요소 사이의 완벽한 균형을 찾는 동시에 스타트업과 중소기업이 기술을 계속 사용할 수 있도록 보장하는 것이었습니다. 그 과정에서 우리는 광범위하게 작업했던 OpenAI의 Whisper와 같은 기본 ASR 모델이 편향되어 훈련 데이터로 인해 영어 쪽으로 치우쳐 많은 언어가 제대로 표현되지 않는다는 사실도 깨달았습니다.

따라서 속도와 정확성의 절충안을 해결하는 것 외에도 유럽의 다국어 팀으로서 핵심 모델을 최적화하고 미세 조정하여 비즈니스가 언어 전반에 걸쳐 운영되는 데 도움이 되는 진정한 글로벌 API를 구축하는 것이 중요했습니다.

Gladia는 혼잡한 AI 전사 시장에서 어떻게 차별화됩니까? Whisper-Zero ASR이 특별한 이유는 무엇입니까?

새로운 실시간 엔진(Gladia Real Time)은 업계 최고의 300ms 대기 시간을 달성합니다. 그 외에도 소위 “오디오 인텔리전스” 추가 기능이나 NER(명명된 엔터티 인식) 또는 감정 분석과 같은 기능을 사용하여 통화나 회의에서 통찰력을 추출할 수 있습니다.

우리가 아는 바로는 이렇게 긴 대기 시간(종단 간 1초 미만)에서 전사와 통찰력을 모두 제공하고 영어 이외의 언어로 이 모든 작업을 정확하게 수행할 수 있는 경쟁업체는 거의 없습니다. 우리의 언어 지원은 현재 100개 이상의 언어로 확장되었습니다.

우리는 또한 제품이 진정으로 스택에 구애받지 않도록 만드는 데 특히 중점을 두었습니다. 우리의 API는 SIP, VoIP, FreeSwitch 및 Asterisk를 포함한 모든 기존 기술 스택 및 전화 통신 프로토콜과 호환됩니다. 전화 통신 프로토콜은 통합하기가 특히 복잡하므로 우리는 이 제품 측면이 시장에 엄청난 가치를 가져올 수 있다고 믿습니다.

AI 모델의 환각은 특히 실시간 전사에서 중요한 관심사입니다. STT의 맥락에서 환각이 무엇인지, 그리고 Gladia가 이 문제를 어떻게 해결하는지 설명해 주실 수 있나요?

환각은 일반적으로 모델에 지식이 부족하거나 주제에 대한 맥락이 충분하지 않을 때 발생합니다. 모델은 요청에 맞는 출력을 생성할 수 있지만 훈련 당시 존재했던 정보만 참조할 수 있으며 최신 정보가 아닐 수도 있습니다. 모델은 그럴듯해 보이지만 잘못된 정보로 공백을 메움으로써 일관된 응답을 생성합니다.

환각은 LLM의 맥락에서 먼저 알려졌지만 OpenAI가 개발한 해당 분야의 선도적인 모델인 Whisper ASR과 같은 음성 인식 모델에서도 발생합니다. Whisper의 환각은 유사한 아키텍처로 인해 LLM의 환각과 유사하므로 전반적인 맥락을 기반으로 뒤따르는 단어를 예측할 수 있는 생성 모델과 관련된 문제입니다. 어떤 면에서 그들은 출력을 ‘발명’합니다. 이 접근 방식은 보다 기계적인 방식으로 입력 사운드를 출력과 일치시키는 보다 전통적인 음향 기반 ASR 아키텍처와 대조될 수 있습니다.

결과적으로 실제로 말하지 않은 단어를 녹취록에서 발견할 수 있는데, 이는 분명히 문제가 되는 일입니다. 특히 이런 종류의 실수가 심각한 결과를 초래할 수 있는 의학과 같은 분야에서는 더욱 그렇습니다.

환각을 관리하고 감지하는 방법에는 여러 가지가 있습니다. 일반적인 접근 방식 중 하나는 모델의 생성 기능과 검색 메커니즘을 결합하여 사실을 교차 확인하는 RAG(검색 증강 생성) 시스템을 사용하는 것입니다. 또 다른 방법은 사전 정의된 일련의 단계나 체크포인트를 통해 모델이 논리적 경로를 유지하는지 확인하는 “사고 사슬” 접근 방식을 사용하는 것입니다.

환각을 감지하기 위한 또 다른 전략은 훈련 중에 모델 출력의 진실성을 평가하는 시스템을 사용하는 것입니다. 환각을 평가하기 위해 특별히 고안된 벤치마크가 있는데, 여기에는 모델에 의해 생성된 다양한 후보 응답을 비교하고 어느 응답이 가장 정확한지 결정하는 작업이 포함됩니다.

Gladia에서는 거의 모든 환각을 제거하는 독점 ASR인 Whisper-Zero를 구축할 때 다양한 기술 조합을 실험했습니다. 비동기 전사에서 탁월한 결과가 입증되었으며 현재 동일한 99.9% 정보 충실도를 달성하기 위해 실시간으로 최적화하고 있습니다.

STT 기술은 악센트, 소음, 다국어 대화와 같은 광범위한 복잡성을 처리해야 합니다. Gladia는 높은 정확성을 보장하기 위해 이러한 문제에 어떻게 접근합니까?

ASR의 언어 감지는 매우 복잡한 작업입니다. 각 스피커에는 고유한 보컬 특성이 있으며 이를 기능이라고 합니다. 기계 학습 알고리즘은 보컬 스펙트럼을 분석하여 MFCC(Mel Frequency Cepstral Coefficients)를 사용하여 주요 주파수 특성을 추출하는 분류를 수행할 수 있습니다.

MFCC는 인간의 청각 인식에서 영감을 얻은 방법입니다. 이는 우리가 소리를 인식하는 방식에 초점을 맞춘 “심리음향학” 분야의 일부입니다. 낮은 주파수를 강조하고 정규화된 푸리에 분해와 같은 기술을 사용하여 오디오를 주파수 스펙트럼으로 변환합니다.

그러나 이 접근 방식에는 한계가 있습니다. 순전히 음향에만 기반을 두고 있기 때문입니다. 따라서 억양이 강한 영어로 말하면 시스템이 내용을 이해하지 못하고 운율(리듬, 강세, 억양)을 기준으로 판단할 수 있습니다.

이것이 Gladia의 혁신적인 솔루션이 등장하는 곳입니다. 우리는 동적 언어 감지를 위한 콘텐츠 이해와 심리 음향 기능을 결합한 하이브리드 접근 방식을 개발했습니다.

우리 시스템은 귀하가 말하는 방식을 듣는 것뿐만 아니라 귀하가 말하는 내용도 이해합니다. 이 이중 접근 방식을 사용하면 효율적인 코드 전환이 가능하며 강한 악센트가 잘못 표현되거나 오해되는 것을 방지할 수 있습니다.

주요 차별화 요소 중 하나인 코드 전환은 다국어 대화를 처리하는 데 특히 중요한 기능입니다. 화자는 대화 도중(또는 문장 중간에서도) 언어를 전환할 수 있으며, 전환에도 불구하고 즉석에서 정확하게 기록하는 모델의 능력은 매우 중요합니다.

Gladia API는 이렇게 많은 언어 쌍의 코드 전환을 높은 수준의 정확도로 처리하는 능력이 독특하며, 시끄러운 환경에서도 잘 작동하여 전사 품질을 저하시키는 것으로 알려져 있습니다.

실시간 전사에는 매우 짧은 대기 시간이 필요합니다. API는 정확성을 유지하면서 어떻게 300밀리초 미만의 지연 시간을 달성합니까?

높은 정확도를 유지하면서 대기 시간을 300밀리초 미만으로 유지하려면 하드웨어 전문 지식, 알고리즘 최적화 및 아키텍처 설계를 혼합하는 다각적인 접근 방식이 필요합니다.

실시간 AI는 기존 컴퓨팅과 달리 GPGPU의 성능 및 효율성과 긴밀하게 연결되어 있습니다. 저는 거의 10년 동안 이 분야에서 일하면서 OVHCloud(EU에서 가장 큰 클라우드 제공업체)에서 AI 부서를 이끌었고 항상 올바른 균형을 찾는 것이 중요하다는 사실을 직접 배웠습니다. 비용과 해당 하드웨어와 원활하게 작동하도록 알고리즘을 조정하는 방법.

실시간 AI의 성능은 알고리즘을 하드웨어 기능과 효과적으로 조정하여 모든 작업이 지연을 최소화하면서 처리량을 최대화하도록 보장하는 데서 비롯됩니다.

그러나 AI와 하드웨어만이 아닙니다. 시스템 아키텍처도 큰 역할을 하며, 특히 대기 시간에 실제로 영향을 줄 수 있는 네트워크도 중요합니다. Sigfox(IoT 개척자)에서 근무하면서 저지연 네트워크 설계에 대한 깊은 전문 지식을 보유한 CTO는 귀중한 밀리초를 단축하기 위해 네트워크 설정을 최적화했습니다.

따라서 스마트한 하드웨어 선택, 최적화된 알고리즘, 네트워크 설계 등 모든 요소가 혼합되어 있어 정확도 저하 없이 300ms 미만의 대기 시간을 일관되게 달성할 수 있습니다.

Gladia는 화자 분할, 감정 분석, 타임스탬프가 표시된 스크립트와 같은 기능을 통해 전사 이상의 기능을 제공합니다. 고객이 이러한 도구를 사용하여 개발하는 혁신적인 애플리케이션에는 어떤 것이 있습니까?

ASR은 수직 전반에 걸쳐 플랫폼에 대한 광범위한 응용 프로그램의 잠금을 해제하며 지난 2년 동안 LLM과 API를 활용하여 최첨단의 경쟁력 있는 제품을 구축하는 진정한 선구적인 회사가 얼마나 많이 등장했는지 보는 것은 놀랍습니다. 다음은 몇 가지 예입니다.

  • 스마트한 메모 작성: 많은 고객이 업무 회의, 학생 강의 또는 의료 상담에서 정보를 신속하게 수집하고 정리해야 하는 전문가를 위한 도구를 구축하고 있습니다. 화자 분할을 통해 API는 누가 무엇을 말했는지 식별할 수 있으므로 대화를 쉽게 따라가고 작업 항목을 할당할 수 있습니다. 타임스탬프가 표시된 기록과 결합되어 사용자는 녹음의 특정 순간으로 바로 이동할 수 있으므로 시간을 절약하고 번역 시 손실되는 부분이 없도록 할 수 있습니다.
  • 영업 활성화: 영업의 세계에서는 고객의 정서를 이해하는 것이 무엇보다 중요합니다. 팀은 감정 분석 기능을 사용하여 통화 또는 데모 중에 잠재 고객이 어떻게 반응하는지에 대한 실시간 통찰력을 얻습니다. 또한 타임스탬프가 표시된 대화 내용은 팀이 대화의 주요 부분을 다시 방문하여 프레젠테이션을 개선하거나 고객의 우려 사항을 보다 효과적으로 해결하는 데 도움이 됩니다. 특히 이 사용 사례의 경우 NER는 CRM에 자동으로 제공하기 위해 판매 통화에서 추출할 수 있는 이름, 회사 세부 정보 및 기타 정보를 식별하는 데에도 핵심입니다.
  • 콜센터 지원: 계약 센터 공간의 회사는 API를 사용하여 상담원에게 실시간 지원을 제공하고 통화 중에 고객 감정을 표시합니다. 화자 분할을 통해 말하는 내용이 올바른 사람에게 할당되도록 하고, 타임스탬프가 표시된 기록을 통해 감독자는 중요한 순간이나 규정 준수 문제를 신속하게 검토할 수 있습니다. 이는 더 나은 통화 중 해결률과 품질 모니터링을 통해 고객 경험을 향상시킬 뿐만 아니라 상담원 생산성과 만족도도 향상시킵니다.

기업 사용자의 전사 신뢰성을 향상시키는 데 있어 사용자 정의 어휘 및 엔터티 인식의 역할에 대해 논의할 수 있습니까?

많은 업계에서는 전문 용어, 브랜드 이름, 고유한 언어 뉘앙스에 의존합니다. 맞춤형 어휘 통합을 통해 STT 솔루션은 이러한 특정 요구 사항에 적응할 수 있으며 이는 상황 파악에 매우 중요합니다. 비즈니스 요구 사항을 정확하게 반영하는 미묘한 차이를 파악하고 결과를 제공합니다. 예를 들어, 특정 언어로 브랜드 이름과 같은 도메인별 단어 목록을 만들 수 있습니다.

유용한 이유: 특정 업종에 맞게 전사를 조정하면 전사의 오류를 최소화하고 더 나은 사용자 경험을 얻을 수 있습니다. 이 기능은 의학이나 금융과 같은 분야에서 특히 중요합니다.

NER(명명된 엔터티 인식)는 사람 이름, 조직, 위치 등과 같은 구조화되지 않은 오디오 데이터에서 주요 정보를 추출하고 식별합니다. 구조화되지 않은 데이터의 일반적인 문제점은 이 중요한 정보가 쉽게 액세스할 수 없고 기록 내에 묻혀 있다는 것입니다.

이 문제를 해결하기 위해 Gladia는 구조화된 핵심 데이터 추출(KDE) 접근 방식을 개발했습니다. LLM과 유사한 Whisper 기반 아키텍처의 생성 기능을 활용함으로써 Gladia의 KDE는 컨텍스트를 캡처하여 관련 정보를 직접 식별하고 추출합니다.

이 프로세스는 사용자 정의 어휘 및 NER와 같은 기능을 통해 더욱 향상될 수 있으므로 기업은 CRM에 핵심 데이터를 빠르고 효율적으로 채울 수 있습니다.

실시간 전사가 고객 지원, 판매, 콘텐츠 제작 등의 산업을 어떻게 변화시키고 있다고 생각하시나요?

실시간 전사는 이러한 산업을 심오한 방식으로 재편하여 실질적인 비즈니스 이점과 함께 놀라운 생산성 향상을 가져오고 있습니다.

첫째, 실시간 전사는 지원 팀의 판도를 바꿔 놓았습니다. 더 빠른 응답, 더 스마트한 에이전트, 더 나은 결과(NSF, 처리 시간 등의 측면에서) 덕분에 실시간 지원은 해결 속도를 높이는 데 핵심입니다. ASR 시스템이 영어가 아닌 언어를 처리하고 실시간 번역을 수행하는 능력이 점점 더 향상됨에 따라 컨택 센터는 더 낮은 마진으로 진정한 글로벌 CX를 달성할 수 있습니다.

영업에서는 속도와 정확한 통찰력이 가장 중요합니다. 통화 상담원의 경우와 마찬가지로 실시간 전사는 적시에 올바른 통찰력을 제공하여 거래 성사 시 가장 중요한 일에 집중할 수 있도록 해줍니다.

제작자에게 실시간 전사는 오늘날 관련성이 덜할 수 있지만 여전히 잠재력이 가득합니다. 특히 미디어 이벤트 중 실시간 캡션 및 번역과 관련하여 더욱 그렇습니다. 현재 미디어 고객 대부분은 여전히 ​​비동기식 전사를 선호합니다. 속도가 덜 중요한 반면, 타임스탬프가 있는 비디오 편집 및 자막 생성과 같은 애플리케이션에서는 정확성이 중요하기 때문입니다.

실시간 AI 전사가 점점 늘어나는 추세인 것 같습니다. 향후 5~10년 동안 이 기술이 어디로 향할 것으로 보시나요?

우리가 지금 실시간 AI라고 부르는 이 현상은 어디에서나 나타날 것 같습니다. 본질적으로 여기서 우리가 실제로 언급하는 것은 인간이 이미 서로 상호 작용하는 방식인 사람과 상호 작용하는 기계의 원활한 능력입니다.

그리고 그녀와 같은 미래를 배경으로 한 할리우드 영화를 보면 키보드를 통해 지능형 시스템과 상호 작용하는 사람을 결코 볼 수 없습니다. 나에게 그것은 인류의 집단적 상상 속에서 목소리가 항상 우리 주변 세계와 상호 작용하는 주요 방식이 될 것이라는 궁극적인 증거가 됩니다.

인간의 지식을 종합하고 공유하는 주요 벡터로서 음성은 글쓰기보다 훨씬 오랫동안 인류 문화와 역사의 일부였습니다. 그런 다음 글쓰기가 우리의 이야기와 지혜의 수호자가 되기 위해 지역 사회 장로들에게 의존하는 것보다 우리의 지식을 더 효과적으로 보존할 수 있게 해 주었기 때문에 그 자리를 차지했습니다.

음성을 이해하고, 응답을 생성하고, 상호 작용을 저장할 수 있는 GenAI 시스템은 공간에 완전히 새로운 것을 가져왔습니다. 그것은 말의 최고이자 인류의 최고입니다. 이전에는 기록된 미디어만이 우리를 위해 확보할 수 있었던 기억의 이점을 통해 음성 커뮤니케이션의 독특한 힘과 에너지를 제공합니다. 이것이 바로 제가 그것이 어디에나 있을 것이라고 믿는 이유입니다. 이것이 우리의 궁극적인 집단적 꿈입니다.

훌륭한 인터뷰에 감사드립니다. 더 자세히 알고 싶은 독자들은 방문하시기 바랍니다. .

게시물 Gladia의 창립자이자 CEO인 Jean-Louis Quéguiner – 인터뷰 시리즈 처음 등장한 Unite.AI.

Share post:

Subscribe

Popular

More like this
Related

John Deere, 대형 차량 자율성의 씨앗을 수확하다

Deere & Co.는 오늘 CES 2025에서 4가지 신제품을 발표했습니다....

Serve Robotics, 라스트 마일 배송 확장을 위해 8,600만 달러 모금

3세대 서브로봇은 더욱 견고하고 안전하며 넉넉하게 설계되었습니다. 출처: 서브로보틱스Serve...

2024년 10월 로봇공학 투자가 74억 달러로 증가

77번의 펀딩 라운드 결과, 2024년 10월 한 달 동안...

야심찬 프로젝트로 지정학이 바뀔 수 있다

지난 1년 동안, 스펙트럼의 편집자들은 지정학에 대한 기술의 중심이라는...