Simon Poghosyan, Gspeech의 창립자이자 CEO – 인터뷰 시리즈

Date:

사이먼 포도시안 창립자이자 CEO입니다 gspep텍스트를 70 개가 넘는 언어로 자연스러운 오디오로 변환하여 온라인 컨텐츠에 더 액세스 할 수 있도록하는 웹 기반 AI 플랫폼. VLSI 디자인에 대한 배경 지식과 프로그래밍 및 사용자 경험에 대한 강력한 관심으로 Simon은 웹 사이트가 음성 지원 컨텐츠를 제공 할 수있는 방식을 단순화하기 위해 GSPEECH를 만들었습니다.

오늘날 GSPEECH는 매월 약 2 억 명의 오디오를 생산하며 70 개 이상의 국가에서 사용되며 매달 200,000 개 이상의 연극을 제공합니다. 최근에 총 10 억 명의 오디오 캐릭터를 능가 한 Gspeech는 계속 빠르게 성장하고 있습니다. 이 플랫폼은 단일 한 줄의 코드 만 요구하는 통합이 쉽게 설계되었으며 제작자, 교육자 및 비즈니스가 콘텐츠를보다 포괄적이고 매력적으로 만들 수 있도록 지원합니다.

GSPEECH는 모든 영어 페이지에서도 사용 되며이 기사를들을 수 있으며 재생 버튼을 클릭하여 GSPEECH가 얼마나 잘 수행되는지를들을 수 있습니다.

VLSI 디자인 (매우 대규모 통합)과 초기 프로그래밍 경험에 대한 배경은 강력한 기술 기반을 마련했습니다. 마이크로 전자 공학에서 AI 구동 소프트웨어 구축으로의 전환에 영감을 주었으며, 그로 인해 GSPEECH의 생성으로 이어진 방법은 무엇입니까?

문제 해결에 대한 나의 열정은 수학과 물리학에 대한 사랑으로 인해 고등학교에서 시작되었습니다. 그 관심으로 인해 Synopsys Armenia와 협력하여 State Engineering University of Armenia의 VLSI 디자인에서 학사 (2009)와 Master ‘s (2011)를 얻었습니다. 물리학을 공부하면서 정밀하고 분석적인 사고로 저를 훈련 시켰지만, 두 번째 해에는 Pascal Language를 시작으로 프로그래밍을 발견했으며 즉시 사랑에 빠졌습니다. 내 친구와 나는 우리가 6 개월을 마칠 수 있었음에도 불구하고 우리가받은 즉시 코스워크 과제를 완료 할 것입니다. 그런 다음 재미를 위해 우리는 다른 학생들의 과제를 시작했습니다.

이 열정으로 인해 소프트웨어 개발에 더 깊이 빠져 들었습니다. 나는 웹 사이트 생성으로 시작한 다음 내 CMS를 만들었습니다. 프로세스 자동화 및 데이터 관리 아키텍처 설계에서 여러 프로젝트를 완료 한 후 웹 인터페이스 용 디지털 솔루션 구축을 얼마나 좋아하는지 깨달았습니다. 2Glux 프로젝트를 통해 인기있는 Edvard Ananyan과 협력했습니다. gtranslate Quant Gymnasium의 번역 서비스 및 학교 친구. 그는 저를 WordPress와 Joomla 생태계를 소개했으며 Gspeech의 개념은 그와 함께 시작되었습니다. 그 초기 작업으로 인해 우리 도구의 첫 번째 버전으로 인해 사용자가 웹 페이지에서 텍스트를 듣고 나중에 완전한 기능을 갖춘 AI 플랫폼이 될 씨앗을 심을 수 있습니다. 2023 년까지 나는 Smarts Club LLC를 설립하여 GSPEECH를 글로벌 AI 오디오 솔루션으로 확장하여 70 개 이상의 언어를 지원했습니다. 시민 참여 플랫폼의 접근성을 향상시키는 GSPEECH의 역할에 대한 인류 연합의 칭찬은 AI를 통해 디지털 분할을 연결하는 나의 사명을 반영합니다.

Gspeech는 원래 시각 장애인 사용자를 지원하는 도구로 시작했습니다. 초기 미션이 플랫폼의 진화에 완전한 기능을 갖춘 AI 텍스트 음성 솔루션에 어떤 영향을 미쳤습니까?

접근성에 중점을두면 고품질의 실시간 AI 오디오 개발, 70 개 이상의 언어로 변환 및 간단한 코드 스 니펫을 통한 원활한 웹 사이트 통합이 개발되었습니다. 이 임무는 사용자 정의 가능한 오디오 플레이어, 언어 및 음성 선택 패널, 컨텍스트 인식 재생, 오디오 다운로드 및 시간이 지남에 따라 국가, 도시, 장치 데이터 및 재생 분석을 포함한 자세한 사용 통계와 같은 기능으로 컨텐츠를보다 포괄적이고 참여하도록 설계되었습니다. 100,000 줄 이상의 코드를 작성한 후 2023 년에 GSPEECH Cloud Console을 시작했습니다. 이는 고급 기능의 균형을 맞추고 비즈니스 및 제작자가 콘텐츠에 액세스 할 수 있고 다국어 및 웹 전체의 대화식을 강화할 수있는 확장 가능한 솔루션입니다.

GSPEECH 클라우드 콘솔을 개발하는 동안 직면 한 가장 큰 기술적 과제는 무엇입니까?

GSPEECH Cloud Console 개발의 가장 큰 과제 중 하나는 실시간, 안전한 고품질 AI 오디오 생성을위한 확장 가능한 아키텍처를 설계하는 것입니다. 이를 위해서는 웹에서 관련 컨텐츠를 가져오고 서버에서 오디오를 처리 한 다음 빠르게 신뢰할 수있는 전달을 위해 클라우드에 저장할 수있는 혁신적인 솔루션이 필요했습니다. 암호화 및 액세스 제어와 같은 강력한 보안 조치를 구현하는 것은 동적 인 사용자 생성 컨텐츠를 보호하는 데 중요했습니다.

또 다른 장애물은 고급 신경 엔진을 사용하여 실시간 번역을 가능하게하는 것이 었습니다. 우리는 사용자가 재생을 위해 언어와 선호하는 음성 프로파일을 선택하고 사용자 편의성 및 개인화 우선 순위를 정하는 직관적 인 인터페이스를 구축하는 동시에 저도의 정확한 번역을 보장해야했습니다. 마지막으로, 우리는 여러 사용자 정의 가능한 플레이어 뷰를 갖춘 오디오 템플릿 제작자 마법사를 개발하여 사용자가 웹 사이트에 맞는 독특하고 시각적으로 매력적인 플레이어를 디자인 할 수 있습니다. 장치 간 유연성, 성능 및 사용 편의성 균형은 보람있는 과제였습니다.

70 개 이상의 언어로 실시간 번역과 230 개가 넘는 자연스러운 음성. 이러한 다양한 언어 세트에서 음성 품질을 보장하고 정확성을 유지하는 방법은 무엇입니까?

일관된 음성 품질을 유지하기 위해 지속적으로 최적화되고 업데이트 된 여러 고급 텍스트 음성 (TTS) 모델을 통합합니다. 이 다국어 엔진은 혼합 컨텐츠를 정확하게 처리합니다. 우리는 또한 100 개가 넘는 새로운 음성 분위기를 펼쳐서 사용자에게 더 표현적이고 자연스러운 옵션을 제공합니다. GSPEECH는 매달 2 억 명이 넘는 오디오를 생성하여 70 개 이상의 국가에서 사용자에게 서비스를 제공하며 온라인 플레이어는 매달 200,000 회 이상 사용되며 성장합니다. 이 척도는 지속적인 피드백 및 실제 테스트를 보장하여 튜닝 및 품질 관리에 직접 정보를 제공합니다.

Gspeech가 AI와 기계 학습을 활용하여 생명과 같은 음성 합성을 제공하는 방법을 안내해 주시겠습니까? Neural Voice Technology의 빠른 발전을 어떻게 수행합니까?

GSPEECH는 고급 AI 및 기계 학습을 사용하여 여러 최첨단 텍스트 음성 연사 모델을 통합하여 생생한 음성 합성을 생성합니다. 자연 및 다국어 지원에 최적화 된이 모델은 텍스트 입력을 프로세스하여 혼합 된 컨텐츠를 위해 현실적인 억양과 리듬으로 고품질 오디오를 생성합니다. 다양한 언어에 맞춤형 음성 스타일을 제공하여 사용자 경험을 향상시킵니다. 또한 TTS 별칭을 통합하여 사용자가 오디오에서 특정 단어 나 문구가 어떻게 렌더링되는지에 대한 사용자 정의 규칙을 정의 할 수 있습니다. 예를 들어 특정 용어를 대체하여보다 정확한 발음 또는 문구를 달성합니다. 신경 음성 기술로 최신 상태를 유지하기 위해 최신 발전을 지속적으로 평가하고 통합하고 업계 리더와 협력하며 미래에 독점 모델을 개발할 계획으로 GSPEECH가 음성 합성 혁신의 최전선에 남아 있는지 확인합니다.

사용자에게 음성 튜닝, 피치 제어 및 재생 사용자 정의는 얼마나 중요하며, 이러한 기능이 실제로 빛나는 곳에서 가장 자랑스럽게 생각합니까?

음성 튜닝, 피치 컨트롤 및 재생 사용자 정의는 사용자에게 중요하므로 뉴스 및 블로그 웹 사이트에서 액세스 가능한 e- 러닝 컨텐츠에 이르기까지 특정 요구에 맞는 고유 한 고품질 음성 스타일을 만들 수 있습니다. 100 개가 넘는 새로운 음성 분위기를 지속적으로 통합하면이를 더욱 향상시켜 사용자에게 진정한 독특한 음성을 만들 수있는 유연한 유연성을 제공합니다. 저는 새로운 오디오 편집 및 세대 플랫폼 인 Gspeech Studio를 가장 자랑스럽게 생각합니다. 이를 통해 사용자는 여러 오디오 채널을 만들고 배경 음악과 혼합하고 세련된 음성 오버를 내보내고 제작자가 다양한 응용 프로그램을위한 전문가 급 오디오를 생산할 수 있도록 권한을 부여 할 수 있습니다. 시각적으로 손상된 학생의 편지는 맞춤형 오디오를 통해 독립적 인 연구를 가능하게 한 GSPEECH에게 감사를 표하는 것이 저를 깊이 감동 시켰습니다. 이 사용 사례는 이러한 기능으로 인해 초기 프로그래밍 일 이후로 추구 한 목표 인 컨텐츠에 액세스 할 수 있고 혁신적 인 방법을 보여줍니다.

GSPEECH는 WordPress, Shopify, Wix 등과의 원활한 통합을 제공합니다. 다른 생태계의 제작자와 비즈니스를위한 플랫폼 플러그 앤 플레이를 만드는 전략은 무엇입니까?

WordPress, Shopify 및 Wix와 같은 플랫폼과 GSPEECH의 플러그 앤 플레이 통합을위한 전략은 단순성, 호환성 및 확장성에 중점을 두었습니다. 우리는 원활하게 통합 된 경량의 모듈 식 플러그인 및 코드 스 니펫을 개발하여 최소한의 설정이 필요합니다. 이는 수천 개의 기사와 동적 컨텐츠 블록이 수동 노력없이 즉시 음성 지원을 얻을 수 있음을 의미합니다. 우리는 모바일, 태블릿 및 데스크탑을 포함한 장치에 적응하는 매우 유연하고 아름답게 설계된 플레이어를 제공합니다. 우리의 플레이어는 사용자 정의 가능뿐만 아니라 접근성 및 사용자 참여에 최적화되어 있습니다. WordPress의 경우 플러그인을 통해 GSPEECH 클라우드 대시 보드를 관리 패널에 직접 내장하여 사용자를위한 관리를 간소화했습니다. 자세한 문서 및 직관적 인 대시 보드는 설치 및 사용자 정의를 통해 비 기술적 인 사용자를 안내합니다. 정기 테스트는 다양한 생태계에서 일관된 성능을 보장하여 제작자와 비즈니스가 AI 구동 텍스트 음성을 쉽게 추가 할 수 있도록 강화합니다.

2012 년부터 오늘까지의 여정을 되돌아 보면 Gspeech를 구축하는 데 개인적으로 또는 전문적으로 가장 큰 이정표는 무엇입니까?

Gspeech의 가장 큰 이정표는 10 억 명의 고품질 AI 오디오를 생성하여 접근성에 대한 글로벌 영향을 보여주었습니다. 마찬가지로 의미있는 것은 인류 연합과 같은 조직에서받은 피드백, 사회적 책임 플랫폼을 향상시키는 GSPEECH와 사용자 참여를위한 “게임 체인저”라고 불리는 블로그 소유자로부터받은 피드백이었습니다. 플랫폼에서 110 개가 넘는 5 성급 리뷰 WordPress 그리고 AppSumo 최근 몇 달 동안이 성장하는 신뢰를 반영합니다.

Gspeech는 이제도 적극적으로 사용됩니다 우즈베키스탄의 Namangan 지역 통계 부 -교통량이 많고 국가 차원의 가시성이있는 정부 기관. 공공 기관이 우리의 기술을 채택하는 것을 보는 것은 우리의 솔루션에 대한 의미있는 이정표이자 강력한 신뢰의 신호였습니다.

기독교인과 아르메니아 교회에서 봉사하는 사람으로서, 나는 또한 가능할 때마다 다른 신앙 기반 이니셔티브를 지원하려고 노력합니다. 나는 종종 자신의 메시지를보다 효과적으로 전파하고 오디오를 통해 성경에 더 액세스 할 수 있도록하는 방법으로 기독교 웹 사이트에 무료로 gspeech를 제공합니다. 더 큰 것에 대한 나의 작은 기여입니다. 동시에, 나는 코드 – 메시아 회중과 소중한 GSPEECH 고객 – 사명과 내용이 행동하는 성경의 힘을 반영합니다.

기술이 믿음, 이해 및 포용의 다리가되면이 순간은 우리가 왜 Gspeech를 구축했는지를 상기시켜줍니다.

특히 오디오 컨텐츠와 음성 인터페이스가 지배적이되면서 디지털 미디어의 미래에서 GSPEECH가 어떤 역할을 하는가?

AI 구동성 음성 액세스를 가능하게함으로써 디지털 미디어에 더 액세스 할 수 있고 참여할 수있는 리더로서 GSPEECH를 구상합니다. 우리의 목표는 전체 온라인 경험을 전환하여 웹 사이트가 기본적으로 자연스럽게 음성 인터랙티브, 포괄적 및 다국어가되도록하는 것입니다. 한 줄의 코드만으로 사이트 소유자는 수천 개의 기사를 발명 콘텐츠로 전환 할 수 있습니다. 앞으로, 우리는 Gspeech Studio를 오디오 생성 및 편집을위한 강력하고 독특한 플랫폼으로 개발하여 사용자가 배경 음악, 효과 및 정확한 튜닝으로 다층 음성 컨텐츠를 만들 수 있습니다. 우리는 웹을 진정으로들을 수 있고 직관적이며 보편적으로 액세스 할 수 있도록하고 싶습니다.

Gspeech는 최근 AppSumo에서 출시되었습니다 그리고 이미 얼리 어답터로부터 거의 완벽한 등급을 받았습니다. AppSumo 커뮤니티의 반응은 무엇을 의미했으며,이 모멘텀을 어떻게 진행할 계획입니까?

AppSumo 런칭은 GSPEECH를 수백만에 도입했으며, 거의 완벽한 등급을 엄청나게 확인했습니다. 온라인 과정을 실행하는 사람들과 마찬가지로 인류 연합의 피드백을 반영하여 직관적 인 도구와 반응 형 지원을 칭찬합니다. 블로그 소유자는 우리의 목소리를“진정으로 매력적”과 번역“인상적”이라고 불렀습니다. 그들의 긍정적 인 피드백은 RMS AI 기반 텍스트 음성 연설 솔루션의 가치와 프로젝트에 대한 열정에 연료를 공급합니다. 출시 중에 고객을 지원하는 고객은 특히 고급 오디오 편집 및 내보내기 기능에 대한 사용자 요청에서 영감을 얻은 Gspeech Studio의 새로운 아이디어를 촉발했습니다. 앞으로 저는 커뮤니티를 적극적으로 듣고, 피드백을 통합하고, 접근성과 참여를 향상시키기위한 혁신적인 기능을 개발 함으로써이 모멘텀을 구축 할 계획입니다.

마지막으로, 오늘날의 빠르게 움직이는 기술 환경에서 접근 가능한 AI 기반 도구를 구축하려는 젊은 개발자 또는 기업가에게 어떤 조언을 하시겠습니까?

젊은 개발자와 기업가들에게 저의 조언은 당신의 일에 마음을 부어 독특하고 스마트 한 솔루션을 제공 할 수있는 실제 문제를 식별하는 것입니다. 작게 시작하고 꾸준한 발걸음을 내딛고 고객 피드백을 면밀히 듣습니다. 그들은 길을 안내합니다. 사용자를 신뢰할 수있는 친구처럼 대우하고, 모든 것을주고, 인내심을 가지십시오. AI 기술을 강력한 동맹국으로 받아들이십시오. 현명하게 사용하면 충격적이고 접근 가능한 도구를 만들 수있는 능력을 증폭시킵니다. 열정, 끈기 및 변화를 일으키 겠다는 ​​약속으로 구축하면 진정으로 중요한 솔루션을 만들 것입니다.

훌륭한 인터뷰에 감사드립니다. 쉽게 통합되어 웹 사이트의 GSPEECH 솔루션을 선택했습니다. 더 많은 방문을 배우려면 gspep.

게시물 Simon Poghosyan, Gspeech의 창립자이자 CEO – 인터뷰 시리즈 먼저 나타났습니다 Unite.ai.

Share post:

Subscribe

spot_imgspot_img

Popular

More like this
Related

Ubitus, Mackay Memorial Hospital은 3 개의 의료 로봇을 공동 개발했습니다

Ubitus가 개발 한 3 개의 로봇 중 하나는 Nvidia...

도착 AI는 스마트 사서함으로 자율 배송을 위해 $ 40m를 얻습니다.

회사의 스마트 사서함 중 하나와 함께 AI의 창립자이자 CEO...

Veho 및 Rivr 팀은 바퀴 달린 다리 로봇 소포 배달 조종사

RIVR 모바일 로봇에는 안전한 패키지가 운반하는 '배낭'이 장착되어 있습니다....

LLM 성능 혁신 : AWS의 자동 평가 프레임 워크가 어떻게 이끄는 방법

대형 언어 모델 (LLMS) 도메인을 빠르게 변환하고 있습니다 인공...