유네스코에 따르면2100년까지 최대 절반의 언어가 멸종될 수 있습니다. 많은 사람들은 생성 AI가 이 과정에 기여하고 있다고 말합니다.
언어 다양성의 감소는 AI나 인터넷에서 시작된 것이 아닙니다. 하지만 AI ~이다 토착어와 자원이 부족한 언어의 쇠퇴를 가속화할 수 있는 입장에 있습니다.
전 세계 7,000개 이상의 언어 중 대부분은 AI 모델을 훈련할 충분한 리소스가 없으며, 많은 언어는 서면 형태가 없습니다. 즉, 몇몇 주요 언어가 인류의 잠재적 AI 훈련 데이터 재고를 지배하는 반면, 대부분은 AI 혁명에서 뒤처질 가능성이 있으며 완전히 사라질 수 있습니다.
간단한 이유는 대부분 사용 가능한 AI 교육 데이터가 영어이기 때문입니다. 영어는 대규모 언어 모델(LLM)의 주요 원동력이며, 덜 일반적인 언어를 사용하는 사람들은 AI 기술에서 대표성이 낮다는 것을 알게 되었습니다.
고려하다 세계경제포럼의 이 통계:
- 모든 웹사이트의 3분의 2는 영어로 되어 있습니다.
- GenAI가 학습하는 데이터의 대부분은 웹에서 수집된 것입니다.
- 전 세계 인구의 20% 미만만이 영어를 구사합니다.
AI가 우리 일상 생활에 더 많이 자리 잡으면서, 우리 모두는 언어적 형평성에 대해 생각해야 합니다. AI는 규모에 따라 문제를 해결할 수 있는 전례 없는 잠재력을 가지고 있으며, 그 약속은 영어권 세계에 국한되어서는 안 됩니다. AI는 부유하고 선진국의 사람들을 위해 사람들의 개인적, 직업적 삶을 향상시키는 편의성과 도구를 만들고 있습니다.
저소득 언어 사용자는 기술에서 표현이 부족하다는 데 익숙해져 있습니다. 해당 언어로 된 웹사이트를 찾을 수 없거나 Siri가 해당 방언을 인식하지 못하는 경우가 있습니다. ~이다 자원이 부족한 언어로 AI를 훈련하는 데 사용할 수 있는 언어는 품질이 좋지 않고(번역 결과의 정확도도 의심스러움) 범위도 좁습니다.
사회는 자원이 부족한 언어가 AI 방정식에서 제외되지 않도록 어떻게 보장할 수 있을까? 언어가 AI의 약속에 대한 장벽이 되지 않도록 어떻게 보장할 수 있을까?
언어 포용성을 향한 노력의 일환으로, 몇몇 주요 기술 기업은 거대한 다국어 언어 모델(MLM)을 훈련하기 위한 이니셔티브를 가지고 있습니다. 예를 들어, Microsoft Translate는 “모든 언어, 모든 곳”을 지원하겠다고 약속했습니다. 그리고 Meta는 “No Language Left Behind”라는 약속을 가지고 있습니다. 이것들은 칭찬할 만하지만, 현실적인가요?
세계의 모든 언어를 처리하는 하나의 모델을 지향하는 것은 특권층에게 유리한데, 세계의 주요 언어에서 훨씬 더 많은 양의 데이터가 있기 때문입니다. 자원이 부족한 언어와 라틴 문자가 아닌 문자를 사용하는 언어를 다루기 시작하면 AI 모델을 훈련하는 것이 더 힘들고 시간이 많이 걸리며 비용이 더 많이 듭니다. 이를 대표성이 낮은 언어에 대한 의도치 않은 세금이라고 생각하세요.
음성 기술의 발전
AI 모델은 대부분 텍스트에 대해 학습되므로 자연스럽게 텍스트 콘텐츠가 더 많이 저장된 언어를 선호합니다. 언어 다양성은 텍스트에 의존하지 않는 시스템에서 더 잘 지원될 것입니다. 한때 인간의 상호작용은 모두 음성 기반이었고 많은 문화권이 그 구두 중심을 유지하고 있습니다. 글로벌 청중에게 더 잘 부응하기 위해 AI 산업은 텍스트 데이터에서 음성 데이터로 발전해야 합니다.
연구는 음성 기술에서 큰 진전을 이루고 있지만 여전히 텍스트 기반 기술에 뒤처져 있습니다. 음성 처리 연구는 진행 중이지만 직접 음성 대 음성 기술은 성숙과는 거리가 멉니다. 현실은 산업이 신중하게 움직이는 경향이 있으며, 기술이 어느 정도 수준에 도달한 후에야 움직인다는 것입니다.
TransPerfect의 새롭게 출시된 GlobalLink Live 통역 플랫폼은 자동 음성 인식(ASR)과 텍스트 음성(TTS)이라는 더 성숙한 형태의 음성 기술을 사용합니다. 이는 직접 음성-음성 시스템이 아직 충분히 성숙하지 않았기 때문입니다. 그렇기는 하지만, 저희 연구팀에서는 완전한 음성-음성 파이프라인이 전성기를 맞이할 날을 대비하고 있습니다.
음성 대 음성 번역 모델 구어 보존에 큰 약속을 제공합니다. 2022년, Meta는 중국 디아스포라에서 약 4,600만 명이 사용하는 주로 구어인 호키엔어를 위한 최초의 AI 기반 음성-음성 번역 시스템을 발표했습니다. 이는 Meta의 Universal Speech Translator 프로젝트의 일부로, 여러 언어에 걸쳐 실시간 음성-음성 번역을 가능하게 하기를 바라는 새로운 AI 모델을 개발하고 있습니다. Meta는 호키엔어 번역 모델, 평가 데이터 세트 및 연구 논문을 오픈 소스로 공개하여 다른 사람들이 작업을 재생산하고 확장할 수 있도록 했습니다.
덜한 것으로 배우기
우리가 글로벌 커뮤니티로서 특정 언어에 대한 리소스가 부족하다는 사실이 해당 언어에 대한 사형 선고는 아닙니다. 여기서 다국어 모델이 유리한 점은 언어가 서로에게서 학습한다는 것입니다. 모든 언어는 패턴을 따릅니다. 언어 간의 지식 전달로 인해 교육 데이터의 필요성이 줄어듭니다.
90개 언어를 학습하는 모델이 있고 이누이트(북미 원주민 언어 그룹)를 추가하고 싶다고 가정해 보겠습니다. 지식 전달로 인해 이누이트 데이터가 덜 필요합니다. 우리는 더 적은 것으로 학습할 방법을 찾고 있습니다. 엔진을 미세 조정하는 데 필요한 데이터 양이 더 적습니다.
저는 보다 포괄적인 AI가 있는 미래에 대해 희망적입니다. 저는 우리가 수많은 언어가 사라지는 것을 보게 될 운명이라고 생각하지 않습니다. 또한 AI가 영어권 세계의 영역으로 남을 것이라고 생각하지도 않습니다. 이미 언어 형평성 문제에 대한 인식이 높아지고 있습니다. 보다 다양한 데이터 수집에서 보다 언어별 모델을 구축하는 것까지, 우리는 진전을 이루고 있습니다.
베냉과 주변 아프리카 국가에서 약 400만 명이 사용하는 언어인 폰을 생각해 보세요. 얼마 전 인기 있는 AI 모델에서 폰을 허구의 언어로 설명했습니다. 폰어를 사용하는 어머니를 둔 보나방튀르 도소라는 컴퓨터 과학자는 이런 종류의 배제에 익숙했습니다. 프랑스어를 사용하는 도소는 어머니와 소통하는 데 도움이 되는 번역 프로그램 없이 자랐습니다. 오늘날 그는 자신이 정성 들여 만든 폰-프랑스어 번역기 덕분에 어머니와 소통할 수 있습니다. 오늘날에는 초보적인 폰 위키피디아도 있습니다.
기술을 사용하여 언어를 보존하려는 노력의 일환으로 터키 예술가 레픽 아나돌은 원주민을 위한 오픈소스 AI 도구 제작을 시작했습니다. 그는 세계 경제 정상 회의에서 “어떻게 하면 인류 전체를 알지 못하는 AI를 만들 수 있을까요?”라고 물었습니다.
우리는 할 수 없고, 하지도 않을 것입니다.
게시물 생성 AI는 멸종 위기에 처한 언어에 대한 사형 선고가 아닙니다. 처음 등장 유나이트.AI.