크라쿠프 DeepDub의 공동 창립자이자 CEO입니다. 컴퓨터 과학 및 기계 학습 분야에서 30 년의 경력을 쌓은 그는 25 년 동안 이스라엘 공군의 기계 학습 및 혁신 부서를 창립하고 이끌어내는 데 중요한 역할을했습니다.
Deepdub 딥 러닝 및 음성 복제를 활용하여 영화, TV 및 디지털 컨텐츠에 고품질의 확장 가능한 현지화를 제공하는 AI 구동 더빙 회사입니다. 2019 년에 설립 된이 제품은 콘텐츠 제작자가 독창적 인 공연을 보존하면서 대화를 여러 언어로 원활하게 번역 할 수 있습니다. DeepDub은 AI 기반 음성 합성을 인간 언어 감독과 통합함으로써 전 세계 콘텐츠 접근성을 향상시켜 전통적인 더빙의 시간과 비용을 줄입니다. 이 회사는 엔터테인먼트 부문 전체의 AI 현지화 기술을 확장하기위한 주요 파트너십, 인증 및 자금 확보, 혁신, 주요 파트너십, 인증 및 자금 확보에 대한 업계 인정을 받았습니다.
2019 년에 DeepDub을 찾는 데 영감을 주었던 것은 무엇입니까? 창조로 이어진 특별한 순간이나 도전이 있었습니까?
전통적인 더빙은 오랫동안 컨텐츠를 현지화하는 업계 표준 이었지만 비싸고 시간이 많이 걸리며 자원 집약적 인 프로세스입니다. AI 생성 음성 솔루션이 존재했지만 배우의 공연을 진정으로 포착하는 데 필요한 감정적 깊이가 부족하여 고품질의 복잡한 콘텐츠에 부적합합니다.
우리는 효율성을 크게 향상시키면서 원래 성능의 정서적 진정성을 유지하는 AI 기반 현지화 솔루션을 개발함으로써 이러한 격차를 해소 할 수있는 기회를 식별했습니다. 우리는 독점 ETTS ™ (Emotion-Text-Teepeech) 기술을 개발하여 AI 생성 목소리가 인간의 배우와 동일한 감정 무게, 어조 및 뉘앙스를 가지고 있습니다.
우리는 언어와 문화적 장벽이 더 이상 글로벌 콘텐츠 접근성에 장애가되지 않는 세상을 구상합니다. 우리는 플랫폼을 만들 때 엔터테인먼트, e- 러닝, 빠른 및 기타 산업 내에서 언어 제한의 도전을 인식하고 컨텐츠 현지화에 혁명을 일으켰습니다.
DeepDub의 솔루션이 최고 품질의 현지화와 복잡한 컨텐츠를 규모로 제공하도록하기 위해 Hybrid 접근 방식을 취하고 ETTS ™ 기술과 함께 언어 및 음성 전문가를 프로세스에 통합하기로 결정했습니다.
우리의 비전은 음성 제작을 민주화하여 확장 가능하고 보편적으로 접근 가능하며 포용 적이며 문화적으로 관련이있는 것입니다.
DeepDub를 시작할 때 직면 한 가장 큰 기술 및 비즈니스 과제는 무엇이며 어떻게 극복 했습니까?
엔터테인먼트 산업의 신뢰를 얻는 것은 DeepDub를 시작할 때 큰 장애물이었습니다. 할리우드는 수십 년 동안 전통적인 더빙에 의존했으며 AI 중심 솔루션으로의 전환이 필요했습니다.
이 회의론을 해결하기 위해, 우리는 완전히 라이센스가 부여 된 음성 은행을 만들어 AI 생성 목소리의 진위를 향상 시켰습니다. 이 은행은 실제 인간 음성 샘플을 통합하여 출력의 자연과 표현성을 크게 향상시켜 할리우드에서 수용하는 데 중요합니다.
다음으로 Accent Control과 같은 기능과 함께 ETTS ™와 같은 독점 기술을 개발했습니다. 이러한 기술은 AI 생성 목소리가 감정적 깊이와 뉘앙스를 포착 할뿐만 아니라 고품질 더빙에 필요한 지역적 진정성을 준수하도록합니다.
또한 기술과 긴밀히 협력하는 전용 사내 포스트 프로덕션 팀을 구축했습니다. 이 팀은 AI 출력을 미세 조명하여 모든 컨텐츠가 연마하고 업계의 높은 표준을 충족하도록합니다.
또한, 우리는 전 세계의 악의적 인 배우, 언어 학자 및 감독의 글로벌 인간 전문가 네트워크를 포함하도록 접근 방식을 확장했습니다. 이 전문가들은 귀중한 문화적 통찰력과 창의적인 전문 지식을 가져 와서 더빙 된 내용의 문화적 정확성과 정서적 공명을 향상시킵니다.
우리의 언어학 팀은 기술 및 글로벌 전문가와 협력하여 사용 된 언어가 대상 청중의 문화적 맥락에 완벽 함을 보장하여 현지 규범에 대한 진정성과 준수를 보장합니다.
이러한 전략을 통해 고급 기술과 강력한 글로벌 전문가 팀 및 사내 포스트 프로덕션 팀을 결합한 DeepDub은 AI가 전 세계적으로 전통적인 더빙 워크 플로우를 크게 향상시킬 수있는 Hollywood 및 기타 최고급 제작 회사에 성공적으로 시연했습니다. 이 통합은 생산을 간소화 할뿐만 아니라 시장 확장 가능성을 확대합니다.
DeepDub의 AI 기반 더빙 기술은 기존의 더빙 방법과 어떻게 다릅니 까?
전통적인 더빙은 노동 집약적이며 성우, 사운드 엔지니어 및 사후 제작 팀이 다른 언어로 대화를 수동으로 재현 할 필요가 있기 때문에 프로젝트 당 몇 달이 걸릴 수있는 프로세스입니다. 우리의 솔루션은 기술과 인간 전문 지식을 결합한 하이브리드 엔드 투 엔드 솔루션을 제공하여 후반 작업 플로우에 직접 통합하여 현지화 비용을 최대 70%, 처리 시간을 최대 50% 줄임 으로써이 프로세스에 혁명을 일으킨다.
다른 AI 생성 음성 솔루션과 달리, 당사의 독점 ETTS ™ 기술은 전통적인 방법을 규모로 달성하기 위해 고군분투하는 감정적 깊이, 문화적 진정성 및 음성 일관성을 허용합니다.
Debbing 프로세스에서 AI와 인간의 전문 지식이 어떻게 협력합니까?
DeepDub의 하이브리드 모델은 AI의 정밀성과 확장 성을 인간 전문 지식의 창의성과 문화적 민감성과 결합합니다. 우리의 접근 방식은 전통적인 Dubbing의 예술성과 고급 AI 기술과 조화를 이루어 현지화 된 콘텐츠가 원본의 정서적 진정성과 영향을 유지할 수 있도록합니다.
우리의 솔루션은 AI를 활용하여 현지화의 토대 작업 측면을 자동화하는 반면, 인간 전문가는 정서적 뉘앙스, 악센트 및 문화적 세부 사항을 개선합니다. 우리는 독점 ETTS ™와 Voice-to-Voice (V2V) 기술을 통합하여 AI 생성 음성의 자연적인 표현성을 향상시켜 인간 공연의 깊이와 사실주의를 포착 할 수 있도록합니다. 이런 식으로, 우리는 모든 콘텐츠가 원본에서와 같이 현지화 된 형태로 진정으로 영향을 미치도록 보장합니다.
언어 학자와 음성 전문가는 AI 생성 컨텐츠의 문화적 정확성을 향상시키기 때문에이 과정에서 중요한 역할을합니다. 세계화가 엔터테인먼트의 미래를 계속 형성함에 따라 AI와 인간 예술가의 통합은 컨텐츠 현지화의 금 표준이 될 것입니다.
또한, 우리의 성우 아티스트 로열티 프로그램은 AI-ASSESTED 더빙에 목소리가 사용될 때마다 전문 성우를 보상하여 음성 AI 기술의 윤리적 사용을 보장합니다.
DeepDub의 독점 ETTS ™ (Emotion-Text-Teecee) 기술은 어떻게 더빙 콘텐츠에서 음성 진위와 감정적 깊이를 향상 시키는가?
전통적인 AI 생성 목소리는 종종 공연을 매력적으로 만드는 미묘한 감정적 신호가 부족합니다. 이러한 부족을 해결하기 위해 DeepDub은 독점적 인 ETTS ™ 기술을 개발하여 AI 및 딥 러닝 모델을 활용하여 원래 배우의 성능의 완전한 감정적 깊이를 유지할뿐만 아니라 인간의 감정적 지능을 자동화 된 프로세스에 통합하는 연설을 생성합니다. 이 고급 기능을 통해 AI는 합성 된 목소리를 미세하게 조정하여 기쁨, 분노 또는 슬픔과 같은 의도 된 감정을 반영하여 청중과 진정으로 공명합니다. 또한 ETTS ™는 고 충실한 음성 복제를 생성하는 데 탁월하며, 피치, 톤 및 페이스와 같은 인간의 연설에서 자연적인 뉘앙스를 모방하여 진실하고 매력적인 라인을 전달하는 데 필수적입니다. 이 기술은 또한 악센트를 제어하기 위해 출력을 적절하게 조정함으로써 문화적 민감도를 향상시켜 더빙 된 컨텐츠가 문화적 뉘앙스와 존중하고 일치하여 글로벌 매력과 효과를 향상시킵니다.
AI 생성 목소리의 일반적인 비판 중 하나는 로봇 소리가 들릴 수 있다는 것입니다. DeepDub은 AI 생성 목소리가 자연과 정서적 뉘앙스를 유지하도록 어떻게 보장합니까?
당사의 독점 기술은 딥 러닝 및 머신 러닝 알고리즘을 사용하여 원래 의도, 스타일, 유머 및 문화적 뉘앙스를 보존하는 확장 가능한 고품질 더빙 솔루션을 제공합니다.
ETTS ™ 기술과 함께 DeepDub의 혁신적인 스위트 룸에는 Voice-to-Voice (V2V), 음성 클로닝, 악센트 제어 및 보컬 감정 뱅크와 같은 기능이 포함되어있어 프로덕션 팀이 창의적인 비전에 맞게 공연을 미세 조정할 수 있습니다. 이러한 기능은 모든 목소리가 스토리 텔링과 영향력있는 사용자 경험에 필요한 감정적 깊이와 뉘앙스를 전달할 수 있도록합니다.
지난 몇 년 동안, 우리는 미디어 및 엔터테인먼트 산업에서 솔루션의 성공이 증가한 것을 보았으므로 최근에는 할리우드 베팅 한 음성 오버를 개발자, 기업 및 컨텐츠 제작자와 함께 공개하기로 결정했습니다. API 오디오가 있습니다. ETTS ™ 기술로 구동되는 API는 ACCENT, 정서적 톤, 템포 및 보컬 스타일을 포함한 고급 사용자 정의 매개 변수로 실시간 음성 생성을 가능하게합니다.
API의 플래그십 기능은 오디오 사전 설정으로, 가장 많이 요청 된 VoiceOver 요구 사항을 가진 수년간의 업계 경험을 기반으로 설계되었습니다. 이러한 사전 구성된 설정을 통해 사용자는 광범위한 수동 구성 또는 탐색없이 다양한 콘텐츠 유형을 빠르게 조정할 수 있습니다. 이용 가능한 선물에는 오디오 설명 및 오디오 북, 다큐멘터리 또는 현실 내레이션, 드라마 및 엔터테인먼트, 뉴스 배달, 스포츠 해설, 애니메이션 또는 만화 보이스 오버, 대화식 음성 응답 (IVR), 프로모션 및 상업용 컨텐츠가 포함됩니다.
AI Dubbing은 문화적, 언어 적 적응을 포함합니다. Deepdub은 어떻게 더빙 솔루션이 문화적으로 적절하고 정확한지 보장합니까?
현지화는 단어를 번역하는 것이 아니라 의미, 의도 및 문화적 맥락을 번역하는 것입니다. DeepDub의 하이브리드 접근 방식은 AI 중심 자동화와 인간 언어 전문 지식을 결합하여 번역 된 대화가 대상 청중의 문화적, 정서적 뉘앙스를 반영 할 수 있도록합니다. 우리의 현지화 전문가 네트워크는 AI와 함께 더빙 된 내용이 지역 방언, 표현 및 문화적 감수성과 일치하도록합니다.
AI 더빙을 다음 단계로 밀기 위해 현재 노력하고있는 가장 흥미로운 혁신은 무엇입니까?
다가오는 가장 큰 혁신 중 하나는 Live/Streaming Dubbing으로 스포츠 이벤트 및 뉴스 미디어와 같은 라이브 방송에 실시간 더빙을 가능하게하여 글로벌 이벤트에 즉시 액세스 할 수 있도록합니다. 이것을 또 다른 흥미 진진한 혁신과 결합함으로써, 우리의 ETTS ™ 기능인 ETTS ™ 기능인 독점적 인 기술인 대규모 정서적 지원과 상업적 권리를 제작할 수있는 독점적 인 기술인 우리는 시장에 비해 고품질, 진정한, 감정, 라이브 더빙을 제공 할 수있을 것입니다.
예를 들어 올림픽 또는 라이브 스포츠 행사의 개막식을 시작하십시오. 지역 방송사는 일반적으로 지역 언어와 방언으로 논평을 제공하지만이 기술은 전 세계의 시청자가 전개되는 모국어로 전체 이벤트를 경험할 수있게 해줍니다.
라이브 더빙은 전 세계에서 라이브 이벤트가 어떻게 경험되는지 재정의하여 언어가 결코 장벽이되지 않도록합니다.
AI 생성 더빙은 최근 특정 프로젝트에서 비판에 직면했습니다. 이러한 비판을 이끄는 주요 요인은 무엇이라고 생각하십니까?
주요 비판은 진정성, 윤리 및 품질에 대한 우려에서 비롯됩니다. 일부 AI 생성 목소리는 몰입 형 스토리 텔링에 필요한 감정적 공명과 뉘앙스가 부족했습니다. DeepDub에서 우리는 감정적으로 표현적인 AI 목소리를 개발하여 원래 공연의 영혼을 유지하도록함으로써 이것을 다루었습니다. DeepDub는 훌륭한 캐스팅, 명확한 대화, 원활한 동기화 및 완벽한 페이싱을 포함한 모든 차원에서 70% 이상의 뛰어난 시청자 만족도를 달성했습니다.
또 다른 문제는 AI 목소리의 윤리적 사용입니다. DeepDub는 AI Dubbing의 책임있는 AI 더빙의 리더로서 AI 생성 된 공연의 성우를 보상하는 업계 최초의 로열티 프로그램을 개척합니다. 우리는 AI가 인간의 창의성을 향상시키고 대체하지 말고 그 약속은 다시 우리가 구축 한 모든 것에 도망 쳤다.
향후 5-10 년 안에 AI 더빙이 글로벌 엔터테인먼트 산업을 어떻게 바꾸는 것을 보십니까?
향후 10 년 동안 AI-Powered Dubbing은 전례없는 콘텐츠를 민주화하여 영화, TV 쇼 및 모든 시청자, 어디에서나 모국어로 즉시 접근 할 수있는 라이브 방송을 만들 것입니다.
우리는 스트리밍 플랫폼과 방송사가 실시간 다국어 더빙을 통합하여 언어 장벽을 제거하고 전통적인 현지화 방법보다 더 빠르고 빠르게 여행 할 수있는 세상을 구상합니다.
언어 접근성 외에도 AI Dubbing은 맹인의 미디어 액세스를 향상시키고 시각 장애를 향상시킬 수 있습니다. 많은 사람들이 시각적 컨텐츠를 따르기 위해 오디오 설명에 의존하며 AI-Dubbing을 사용하면 자막이 접근 가능한 옵션이 아닌 경우 외국어 컨텐츠에 참여할 수 있습니다. 언어 적 장벽과 감각 장벽을 모두 깨뜨려 AI 구력 더빙은 올해 전 세계적으로 미디어 접근성에 대한 새로운 규정이 발효되기 때문에 특히 중요한 엔터테인먼트 경험을 만드는 데 도움이 될 것입니다.
AI Dubbing이 진정으로 주류가되기 위해 여전히 해결 해야하는 가장 큰 과제는 무엇입니까?
가장 큰 과제는 규모에 따라 매우 높은 품질을 유지하고 문화 및 언어 적 정밀도를 보장하며 AI 생성 목소리에 대한 윤리 지침을 구축하는 것입니다. 그러나 기술적 장애물을 넘어서 AI 더빙의 대중 수용은 신뢰에 달려 있습니다. 시청자는 AI 생성 목소리가 합성 또는 분리 된 소리보다는 진정성과 정서적 공연 깊이를 보존한다고 생각해야합니다.
AI 더빙이 완전히 받아 들여 지려면, 인간 예술성과 기술을 규모로 결합하여 고품질이어야하며 창조적 무결성, 언어 적 뉘앙스 및 문화적 맥락에 대한 존중을 보여줍니다. 이는 청중을 소외시킬 수있는 부정확성을 피하고 Deepfake 위험과 음성 소유권에 대한 윤리적 문제를 해결하는 부정확성을 피하고, 원래 배우의 의도에 대한 목소리가 진실을 유지하는 것을 의미합니다.
AI Dubbing이 더욱 광범위 해짐에 따라 기술 제공 업체는 음성 진위, 보안 및 지적 재산 보호에 대한 엄격한 표준을 구현해야합니다. DeepDub은 이러한 영역에서 적극적으로 책임을 맡고 있으며 AI 음성 기술이 인간의 인재의 예술적이고 전문적인 기여를 존중하면서 글로벌 스토리 텔링을 향상시킬 수 있도록합니다. 그래야만 청중, 콘텐츠 제작자 및 업계 이해 관계자는 AI 더빙을 신뢰할 수 있고 귀중한 도구로 완전히 받아 들일 것입니다.
훌륭한 인터뷰에 감사드립니다. 더 배우고 싶은 독자들은 방문해야합니다. Deepdub.
게시물 Ofir Krakowski, Deepdub의 CEO 겸 공동 창립자-인터뷰 시리즈 먼저 나타났습니다 Unite.ai.