대부분의 사람들은 로봇이 더 이상 작은 쓰레기통처럼 들리지 않는다는 것을 알고 있습니다. 그들은 시리, 알렉사, 쌍둥이 자리처럼 들립니다. 그들은 미로 고객 지원 전화 나무의 목소리처럼 들립니다. 그리고 그 로봇 목소리조차도 새로운 것에 의해 쓸모 없게 만들어지고 있습니다. AI 생성 목소리 그것은 특정 지역 악센트까지 모든 보컬 뉘앙스와 인간의 연설을 모방 할 수 있습니다. AI는 몇 초 만에 오디오를 누군가의 구체적인 목소리를 복제하십시오.
이 기술은 많은 분야의 인간을 대체 할 것입니다. 자동화 된 고객 지원은 콜센터에서 직원을 줄임으로써 비용을 절약합니다. AI 요원 자연어로 다른 사람들과 대화하면서 우리를 대신하여 전화를 걸 것입니다. 그 모든 일이 일어나고 있으며 곧 평범해질 것입니다.
그러나 사람과는 달리 봇과 대화하는 것에 대해 근본적으로 다른 것이 있습니다. 사람은 친구가 될 수 있습니다. AI는 사람들이 그것을 대우하거나 반응 할 수있는 방법에도 불구하고 친구가 될 수 없습니다. AI는 기껏해야 도구이며 최악의 경우 조작 수단입니다. 인간은 우리가 그것을 통제하는 사람이 정한 의제로 살아있는 숨을 쉬는 사람이나 로봇과 이야기하는지 알아야합니다. 로봇이 로봇처럼 들리는 이유입니다.
AI 생성 연설 만 레이블을 지정할 수는 없습니다. 다양한 형태로 올 것입니다. 따라서 우리는 양식에 상관없이 작동하는 AI를 인식하는 방법이 필요합니다. 오디오의 길고 짧은 스 니펫, 심지어 1 초만에 작동해야합니다. 모든 언어와 문화적 맥락에서 일해야합니다. 동시에, 우리는 기본 시스템의 정교함 또는 언어 복잡성을 제한해서는 안됩니다.
간단한 제안이 있습니다. 모든 대화 AI와 로봇은 링 변조기를 사용해야합니다. 20 세기 중반, 실제 로봇 소리가 나는 연설을 쉽게 만들기 전에 합성 적으로 링 변조기를 사용하여 배우의 목소리를 로봇으로 만들었습니다. 지난 수십 년 동안, 우리는 로봇 음성에 익숙해졌습니다. 이제 우리는 동일한 기술을 사용하여 인간 사운드 로봇과 구별 할 수없는 로봇 연설을 할 수 있습니다.
링 변조기에는 몇 가지 장점이 있습니다. 계산적으로 간단하고 실시간으로 적용 할 수 있으며, 음성의 명료성에 영향을 미치지 않으며, 가장 중요한 것은 로봇을 묘사하기위한 역사적 사용으로 인해 보편적으로 “로봇 소리”입니다. .
모든 형태의 음성 합성 또는 AI 음성 보조원을 제공하는 책임있는 AI 회사는 일부 표준 주파수 (예 : 30-80 Hz)와 최소 진폭 (예 : 20 %)의 링 변조기를 추가해야합니다. 그게 다야. 사람들은 빨리 붙잡을 것입니다.
다음은 우리가 제안한 것의 예를 위해들을 수있는 몇 가지 예입니다. 첫 번째 클립은이 기사의 AI 생성 “팟 캐스트”입니다. Google의 노트북 두 개의 AI“호스트”가 특징입니다. Google의 Notebooklm 은이 기사의 텍스트 만 제공 한 팟 캐스트 스크립트와 오디오를 만들었습니다. 다음 두 클립은 AIS의 목소리로 동일한 팟 캐스트를 특징으로합니다.
우리는 50 라인 파이썬 스크립트로 오디오 효과를 생성 할 수있었습니다. Anthropic의 Claude. 가장 잘 알려진 로봇 목소리 중 하나는 Doctor Who의 Daleks 1960 년대. 그 당시 로봇 목소리는 합성하기 어려웠으므로 오디오는 실제로 링 모듈레이터를 통해 배우의 목소리였습니다. 우리의 예에서와 같이 약 30Hz로 설정되었습니다. 로봇 효과가 얼마나 강한 지에 따라 다른 변조 깊이 (진폭)로 설정되었습니다. 우리의 기대는 AI 산업이 그러한 매개 변수와 설정의 균형을 잘 테스트하고 수렴하고 50 라인 Python 스크립트보다 더 나은 도구를 사용할 것이지만, 이는 달성하기에 얼마나 간단한 지 강조합니다.
물론 AI 목소리의 사악한 용도도있을 것입니다. 음성 클로닝을 사용하는 사기는 매년 더 쉬워졌지만 올바른 노하우로 수년 동안 가능했습니다. 우리가 더 이상 우리가 볼 수있는 이미지와 비디오가 쉽게 생성 될 수 있었기 때문에 우리가 볼 수 있다는 것을 배우는 것처럼, 우리는 곧 돈을 요구하는 가족처럼 들리는 사람이 단지 음성 클로닝 도구.
우리는 사기꾼들이 우리의 제안을 따르기를 기대하지 않습니다. 그들은 무엇이든 상관없이 방법을 찾을 것입니다. 그러나 그것은 항상 보안 표준에 해당되며 조수가 상승하면 모든 보트를 들어 올립니다. 우리는 대부분의 용도가 주요 회사의 인기있는 음성 API와 관련이있을 것이라고 생각하며, 모두가 로봇과 대화하고 있다는 것을 알아야합니다.