CNTXT AI 출시 MUNSIT : 가장 정확한 아랍어 음성 인식 시스템이 구축되었습니다.

Date:

아랍어 인공 지능을위한 결정적인 순간에 cntxt ai 공개되었습니다 Munsite아랍어를 위해 가장 정확한 차세대 아랍어 음성 인식 모델뿐만 아니라 표준 벤치 마크에서 OpenAi, Meta, Microsoft 및 ElevenLabs와 같은 글로벌 거인을 결정적으로 능가하는 차세대 아랍어 음성 인식 모델. UAE에서 개발되고 처음부터 아랍어로 맞춤화 된 Munsit은 CNTXT 가이 지역에 구축 된 기술이지만 전 세계 경쟁력으로“Sovereign AI”라고 부르는 강력한 발전을 나타냅니다.

이 성과의 과학적 기초는 팀의 새로 출판 된 논문에 제시됩니다. 대규모 감독 학습을 통한 아랍어 음성 인식 발전이는 레이블이 붙은 아랍어 음성 데이터의 오랜 부족을 다루는 확장 가능하고 데이터 효율적인 교육 방법을 소개합니다. 이 방법 (연약하게 감독 된 학습)을 통해 팀은 현대 표준 아랍어 (MSA)와 25 개 이상의 지역 방언에서 전사 품질을위한 새로운 바를 설정하는 시스템을 구성 할 수있었습니다.

아랍어 ASR에서 데이터 가뭄을 극복합니다

아랍어는 전 세계에서 가장 널리 사용되는 언어 중 하나이자 유엔의 공식 언어 임에도 불구하고 오랫동안 음성 인식 분야에서 저주적 언어로 간주되어 왔습니다. 이것은 둘 다에서 비롯됩니다 형태 학적 복잡성 크고 다양하며 레이블이 지정된 음성 데이터 세트가 부족합니다. 수많은 수동으로 전사 된 오디오 데이터의 혜택을받는 영어와 달리 아랍어의 변증법 풍부함과 단편화 된 디지털 존재는 강력한 자동 음성 인식 (ASR) 시스템을 구축하는 데 큰 어려움을 겪었습니다.

CNTXT AI는 느리고 비싼 수동 전사 과정을 따라 잡기 위해 대기하는 대신에 더욱 확장 가능한 경로를 추구했습니다 : 약한 감독. 그들의 접근 방식은 다양한 출처에서 수집 한 30,000 시간 이상의 표지되지 않은 아랍어 오디오의 거대한 코퍼스로 시작되었습니다. 이 원시 오디오는 맞춤형 데이터 처리 파이프 라인을 통해 정리, 세그먼트 화 및 자동으로 레이블이 지정되어 고품질 15,000 시간 교육 데이터 세트 (지금까지 가장 크고 가장 대표적인 아랍어 연설 Corpora 중 하나 중 하나입니다.

이 과정은 인간의 주석에 의존하지 않았습니다. 대신 CNTXT는 여러 ASR 모델에서 가설을 생성, 평가 및 필터링하기위한 다단계 시스템을 개발했습니다. 이 전사는 Levenshtein 거리를 사용하여 가장 일관된 가설을 선택한 다음 언어 모델을 통과하여 문법적 타당성을 평가했습니다. 정의 된 품질 임계 값을 충족시키지 못한 세그먼트는 폐기되어 인간 검증이 없어도 훈련 데이터가 신뢰할 수 있도록 보장했습니다. 팀은 ASR 시스템 자체를 재교육하여 라벨링 프로세스에 다시 공급하여 라벨 정확도를 향상시킬 때마다 여러 반복을 통해이 파이프 라인을 개선했습니다.

Munsit 파워링 : 순응 아키텍처

MUNSIT의 핵심에는 Convolutional 레이어의 국부적 감도와 변압기의 글로벌 시퀀스 모델링 기능을 결합한 하이브리드 신경 네트워크 아키텍처 인 Comformer 모델이 있습니다. 이 디자인은 순응자가 특히 장거리 의존성 (예 : 문장 구조)과 세밀한 음성 세부 사항이 중요합니다.

CNTXT AI는 입력으로 80 채널 mel 스피어 그램을 사용하여 처음부터 훈련하는 큰 변형을 구현했습니다. 이 모델은 18 개의 레이어로 구성되며 약 1 억 2 천만 개의 매개 변수를 포함합니다. BFLOAT16 정밀도를 갖는 8 개의 NVIDIA A100 GPU를 사용하여 고성능 클러스터에서 훈련을 수행하여 대규모 배치 크기와 고 차원 특징 공간을 효율적으로 처리 할 수 ​​있습니다. 아랍어의 형태 학적으로 풍부한 구조의 토큰 화를 처리하기 위해, 팀은 맞춤 코퍼스에서 특별히 훈련 된 문장 토큰 화기를 사용하여 1,024 개의 서브 워드 유닛을 만들었습니다.

일반적으로 각 오디오 클립을 신중하게 전사 된 레이블과 짝을 이루어야하는 기존의 감독 된 ASR 교육과 달리 CNTXT의 방법은 전적으로 약한 레이블에서 작동했습니다. 이 레이블은 인간이 검증 된 것보다 시끄럽지 만 합의, 문법 일관성 및 어휘 타당성을 우선시하는 피드백 루프를 통해 최적화되었습니다. 이 모델은 다음을 사용하여 훈련되었습니다 연결 시간적 분류 (CTC) 정렬되지 않은 시퀀스 모델링에 적합한 손실 기능-음성 단어의 타이밍이 가변적이고 예측할 수없는 음성 인식 작업에 비판적입니다.

벤치 마크를 지배합니다

결과는 스스로를 말합니다. MUNSIT는 SADA, Common Voice 18.0, MASC (Clean and Noisy), MGB-2 및 Casablanca의 6 개의 벤치 마크 아랍어 데이터 세트에서 주요 오픈 소스 및 상업용 ASR 모델에 대해 테스트되었습니다. 이 데이터 세트는 사우디 아라비아에서 모로코에 이르기까지 아랍 세계 전역의 수십 개의 방언과 악센트에 걸쳐 집합 적으로 배치됩니다.

모든 벤치 마크에서 MUNSIT-1은 26.68의 평균 워드 오류율 (WER)과 10.05의 문자 오류율 (CER)을 달성했습니다. 이에 비해 Openai의 Whisper의 가장 성능이 좋은 버전은 평균 36.86, CER은 17.21의 평균을 기록했습니다. 또 다른 최첨단 다국어 모델 인 Meta의 SeamlessM4T는 훨씬 더 높았습니다. MUNSIT는 깨끗하고 시끄러운 데이터 모두에서 다른 모든 시스템을 능가했으며, 콜센터 및 공공 서비스와 같은 실제 응용 프로그램의 중요한 요소 인 시끄러운 조건에서 특히 강력한 견고성을 보여주었습니다.

그 격차는 독점 시스템에 대해 똑같이 뚜렷했습니다. MUNSIT는 Microsoft Azure의 아랍어 ASR 모델, Elevenlabs Scribe 및 OpenAi의 GPT-4O 전사 기능을 능가했습니다. 이러한 결과는 한계 이익이 아닙니다. 그들은 가장 강력한 오픈베이스 라인에 비해 WER에서 23.19%, CER에서 24.78%의 평균 상대적 개선을 나타냅니다.

아랍어 음성 AI의 미래를위한 플랫폼

MUNSIT-1은 이미 아랍어를 사용하는 시장에서 전사, 자막 및 고객 지원의 가능성을 이미 변화시키고 있지만 CNTXT AI는 이번 런치를 시작에 불과합니다. 이 회사는 주권 인프라 및 지역 관련 AI에 근거한 텍스트 음성, 음성 비서 및 실시간 번역 시스템을 포함한 아랍어 음성 기술을 전체적으로 구상합니다.

CNTXT AI의 CEO 인 모하마드 아부 셰이크 (Mohammad Abu Sheikh)는“Munsit은 음성 인식의 돌파구가 아닙니다. “이것은 아랍어가 글로벌 AI의 최전선에 속한다는 선언입니다. 우리는 세계적 수준의 AI가 수입 할 필요가 없다는 것을 증명했습니다. 여기에 아랍어로 아랍어로 구축 될 수 있습니다.”

MUNSIT와 같은 지역별 모델이 부상함에 따라 AI 산업은 기술적 우수성을 추구하기 위해 언어 및 문화적 관련성이 희생되지 않는 새로운 시대에 들어가고 있습니다. 사실, Munsitecntxt ai는 그들이 하나이고 동일하다는 것을 보여 주었다.

게시물 CNTXT AI 출시 MUNSIT : 가장 정확한 아랍어 음성 인식 시스템이 구축되었습니다. 먼저 나타났습니다 Unite.ai.

Share post:

Subscribe

spot_imgspot_img

Popular

More like this
Related

항균성 내성과 싸울 수있는 5 가지 기술

독감, 홍역, 폐렴 및 기타 미생물 감염은 한 번...

우리는 공중 보건에 대한 AI의 영향에 대해 이야기해야합니다.

대부분의 사람들은 오늘날의 AI 붐의 환경 영향에 대해 들었습니다....

봇 밀크?

나는 유제품 농장에서 왔습니다. 할아버지 인 해리 골드 스타...

Future House는 과학적 발견을 혁신하기 위해 수퍼 인텔리트 AI 요원을 공개합니다

데이터 생성의 속도가이를 처리하고 이해하는 능력을 훨씬 능가하는 세상에서,...