자동 음성 인식의 다음 단계는 무엇입니까? 도전과 최첨단 접근

Date:

오늘만큼 강력합니다 자동 음성 인식 (ASR) 시스템은 필드가 “해결 된 것”과는 거리가 멀다. 연구원과 실무자들은 ASR이 달성 할 수있는 것의 경계를 넓히는 많은 도전과 관련하여 파악하고 있습니다. 실시간 기능의 발전에서 ASR을 다른 양식과 결합하는 하이브리드 접근법 탐색에 이르기까지 ASR의 다음 혁신의 물결은 우리를 데려 오는 획기적인 혁신만큼이나 변형 적으로 형성되고 있습니다.

주요 도전 연구를 주도합니다

  1. 저주적 언어 Meta와 같은 모델 MMS 그리고 Openai ‘s 속삭임 다국어 ASR에서 전 세계 언어의 대다수, 특히 과소 평가 된 방언은 보증되지 않았습니다. 이 언어를위한 ASR을 구축하는 것은 다음과 같습니다.
    • 라벨이 붙은 데이터 부족 : 많은 언어에는 충분한 규모의 전사 된 오디오 데이터 세트가 부족합니다.
    • 음성학의 복잡성 : 일부 언어는 음조이거나 미묘한 프로 소스 신호에 의존하여 표준 ASR 접근 방식으로 모델링하기가 더 어렵습니다.
  2. 실제 시끄러운 환경 가장 진보 된 ASR 시스템조차도 콜센터, 라이브 이벤트 또는 그룹 대화와 같은 시끄럽거나 겹치는 연설 시나리오에서 어려움을 겪을 수 있습니다. 스피커 발기 (What) 및 소음-로버스 전사와 같은 문제를 해결하는 것은 여전히 ​​우선 순위로 남아 있습니다.
  3. 도메인에 걸친 일반화 현재 ASR 시스템은 종종 도메인 별 작업 (예 : 의료, 법률, 교육)에 미세 조정이 필요합니다. 단일 ASR 시스템이 도메인 별 조정없이 여러 사용 사례에서 잘 수행되는 일반화를 달성하는 것이 주요 목표입니다.
  4. 대기 시간 대 정확도 실시간 ASR은 현실이지만, 대기 시간과 정확성 사이에는 종종 상충 관계가 있습니다. 스마트 폰과 같은 자원으로 제한된 장치에서 낮은 대기 시간과 거의 완벽한 전사를 달성하는 것은 기술적 인 장애물입니다.

신흥 접근 : 수평선에 무엇이 있습니까?

이러한 과제를 해결하기 위해 연구원들은 ASR을 전통적인 경계를 넘어서는 새로운 아키텍처, 교차 모달 통합 및 하이브리드 접근법을 실험하고 있습니다. 가장 흥미로운 지시 사항은 다음과 같습니다.

  1. 엔드 투 엔드 ASR + TTS 시스템 연구원들은 ASR 및 TTS (Text-Steeech)를 별도의 모듈로 취급하는 대신 말을 매끄럽게 전사하고 합성 할 수있는 통합 모델을 탐색하고 있습니다. 이 시스템은 음성과 텍스트의 공유 표현을 사용하여 다음을 수행 할 수 있습니다.
    • 단일 교육 파이프 라인에서 양방향 매핑 (음성-텍스트 및 텍스트 음성 연설)을 배우십시오.
    • 음성 합성 피드백 루프를 활용하여 전사 품질을 향상시킵니다. 예를 들어, Meta의 Spirit LM은 ASR과 TTS를 하나의 프레임 워크로 결합하여 방식으로 표현력과 감정을 보존하기 위해이 방향의 단계입니다. 이 접근법은 시스템을보다 자연스럽고 역동적이며 표현력으로 만들어 대화 AI를 혁신 할 수 있습니다.
  2. ASR 인코더 + 언어 모델 디코더 유망한 새로운 트렌드는 GPT와 같은 미리 훈련 된 언어 모델 디코더로 ASR 인코더를 연결하는 것입니다. 이 아키텍처에서 :
    • ASR 인코더는 원시 오디오를 풍부한 잠재적 표현으로 처리합니다.
    • 언어 모델 디코더는 이러한 표현을 사용하여 텍스트를 생성하여 상황에 맞는 이해와 세계 지식을 활용합니다. 이 연결을 작동시키기 위해 연구원들은 인코더의 오디오 임베드를 디코더의 텍스트 기반 임베딩과 정렬하는 조명 무게 모듈 인 어댑터를 사용하고 있습니다. 이 접근법은 다음을 가능하게합니다.
      1. 언어 적 맥락을 통합하여 모호한 문구를 더 잘 처리합니다.
      2. 시끄러운 환경의 오류에 대한 견고성 향상.
      3. 요약, 번역 또는 질문 답변과 같은 다운 스트림 작업과의 원활한 통합.
  3. 자체 감독 + 멀티 모달 학습 자체 감독 학습 (SSL)은 이미 WAV2VEC 2.0 및 Hubert와 같은 모델로 ASR을 전환했습니다. 다음 프론티어는 멀티 모달 모델에서 오디오, 텍스트 및 시각적 데이터를 결합하는 것입니다.
    • 왜 멀티 모드인가? 연설은 독립적으로 존재하지 않습니다. 비디오 (예 : Lip Movements) 또는 텍스트 (예 : 자막)의 신호를 통합하면 모델이 복잡한 오디오 환경을 더 잘 이해하는 데 도움이됩니다.
    • 행동의 예 : Spirit LM의 음성 및 텍스트 토큰의 인터리빙 및 멀티 모달 번역 시스템에서 ASR에 대한 Google 실험은 이러한 접근법의 잠재력을 보여줍니다.
  4. 소수의 학습을 통한 도메인 적응 소수의 학습은 ASR 시스템이 소수의 예제 만 사용하여 새로운 작업이나 도메인에 빠르게 적응하도록 가르치는 것을 목표로합니다. 이 접근법은 활용하여 광범위한 미세 조정에 대한 의존도를 줄일 수 있습니다.
    • 신속한 엔지니어링 : 자연어 지침을 통해 모델의 행동을 안내합니다.
    • 메타 학습 : 시스템을 여러 작업에 걸쳐“학습 방법을 배우는”시스템을 교육하여 보이지 않는 도메인에 대한 적응성을 향상시킵니다. 예를 들어, ASR 모델은 몇 개의 라벨이 붙은 샘플만으로 법적 전문 용어 또는 의료 용어에 적응할 수 있으므로 엔터프라이즈 사용 사례에 훨씬 더 다재다능합니다.
  5. 더 나은 이해를 위해 맥락화 된 ASR 현재의 ASR 시스템은 종종 더 넓은 대화 나 상황 적 맥락을 고려하지 않고 말을 독립적으로 전사합니다. 이를 해결하기 위해 연구원들은 다음을 통합하는 시스템을 구축하고 있습니다.
    • 메모리 메커니즘 : 모델이 대화의 초기 부분에서 정보를 유지할 수 있도록합니다.
    • 외부 지식 기반 : 모델이 특정 사실 또는 데이터 포인트를 실시간으로 참조 할 수 있도록합니다 (예 : 고객 지원 통화 중).
  6. 에지 장치의 가벼운 모델 Whisper 또는 USM과 같은 대규모 ASR 모델은 놀라운 정확도를 제공하지만 종종 자원 집약적입니다. Smartphones, IoT 장치 및 저수양 환경에 ASR을 가져 오기 위해 연구원들은 다음을 사용하여 경량 모델을 개발하고 있습니다.
    • 양자화 : 성능을 희생하지 않고 크기를 줄이기 위해 모델을 압축합니다.
    • 증류: 더 큰 “교사”모델을 모방하기 위해 소규모 “학생”모델을 교육합니다. 이러한 기술을 통해 Edge Devices에서 고품질 ASR을 실행하여 핸즈프리 어시스턴트, 기기 전사 및 개인 정보 보호 ASR과 같은 새로운 응용 프로그램을 잠금 해제 할 수 있습니다.

ASR의 도전은 기술 퍼즐뿐만 아니라 차세대 대화 AI의 관문입니다. 다른 기술 (TTS, 언어 모델 및 멀티 모드 시스템)과 ASR을 연결함으로써, 우리는 우리가 말하는 것을 이해하지 못하는 시스템을 만들고 있습니다.

당신의 의도, 어조 및 맥락을 이해하는 AI와 유동적 인 대화를 할 수있는 세상을 상상해보십시오. 언어 장벽이 사라지고 접근성 도구가 자연스럽게되어 보이지 않는 느낌이 듭니다. 이것이 오늘날 ASR 획기적인 혁신의 약속입니다.

방금 시작 : 혁신의 중심에있는 ASR

ASR에 대한이 탐사가 내가 한 것처럼 매혹적이라는 것을 알았기를 바랍니다. 나에게,이 분야는 스릴에 빠지지 않습니다. 도전, 돌파구 및 응용 프로그램의 끝없는 가능성은 혁신의 최첨단에 단단히 앉아 있습니다.

우리는 놀라운 속도로 발전하는 에이전트, 로봇 및 AI 구동 도구를 계속 구축함에 따라 대화적인 AI가 우리를 이러한 기술과 연결하는 주요 인터페이스가 될 것임이 분명합니다. 그리고이 생태계 내에서 ASR은 알고리즘을 모델링하기위한 가장 복잡하고 흥미로운 구성 요소 중 하나입니다.

이 블로그가 약간의 호기심을 불러 일으킨다면 더 깊이 다이빙하는 것이 좋습니다. 포옹 얼굴로 가서 오픈 소스 모델을 실험하고 ASR의 마법을 실제로보십시오. 당신이 연구원이든 개발자이든, 열정적 인 관찰자이든, 사랑할 것이 많고 앞으로 더 많은 것이 있습니다.

이 놀라운 분야를 계속 지원합시다. 결국, 우리는 방금 시작하고 있습니다.

게시물 자동 음성 인식의 다음 단계는 무엇입니까? 도전과 최첨단 접근 먼저 나타났습니다 Unite.ai.

Share post:

Subscribe

Popular

More like this
Related

금융 서비스를위한 Microsoft 클라우드 AI 채택 및 혁신을 촉진하는 방법

금융 서비스 부문에서 생성 AI 채택이 가속화함에 따라 전문가와...

새로운 레벨 잠금 해제

오늘 Microsoft가 출시되었습니다 최초의 생성 AI 모델 인...

새로운 파트너십에서 Massrobotics 스타트 업을 지원하는 TC

인도 최대의 다국적 비즈니스 그룹 인 Tata Group의 일부인...

인간형 로봇 그림 Helix VLA 모델을 사용하여 가정용 집안일을 보여줍니다.

그림 AI Inc.는 어제 간단한 가정 작업의 나선 시각적...