오디오 및 음성에 대한 GPT-4o-Realtime-Preview의 공개 미리 보기를 발표하게 되어 기쁘게 생각합니다. 마이크로소프트 Azure OpenAI 서비스 고급 음성 기능을 추가하고 GPT-4o의 다중 모드 제공을 확장합니다. 이 이정표는 AI, 특히 음성 기술 영역에서 Azure의 리더십을 더욱 공고히 합니다. 이 분야에서 Azure의 유산은 Teams, Office 365, Edge와 같은 핵심 Microsoft 제품 전반에 걸쳐 음성-텍스트, 텍스트-음성, 신경 음성 및 실시간 번역을 역사적으로 통합한 음성 서비스를 통해 오랫동안 확립되었습니다. .
이제 GPT-4o-Realtime-Preview는 언어 생성과 원활한 음성 상호 작용을 통합하여 개발자에게 보다 자연스럽고 대화적인 AI 경험을 만드는 데 필요한 도구를 제공함으로써 경계를 더욱 확장합니다. 가상 비서 생성부터 실시간 고객 지원 강화에 이르기까지 이 새로운 모델은 음성 기반 애플리케이션에 대한 광범위한 가능성을 열어줍니다. 새로운 모델은 Copilot과도 통합되었습니다. 새로운 Copilot Voice 제품 발표했다.
최근 Azure OpenAI 발표를 기반으로 구축
이번 발표는 계속해서 일련의 중요한 업데이트 다음을 포함하는 Azure OpenAI 서비스 내:
- O1 시리즈: 복잡한 데이터에 대한 고급 추론을 위해 설계된 새로운 모델 라인업입니다. Azure AI Studio Playground에서 2주간의 미리 보기를 마친 후 오늘 Azure 개발자들이 API를 사용할 수 있게 되어 기쁘게 생각합니다.
- 데이터 영역: 지역별 데이터 상주를 활성화하여 고객 개인 정보 보호 및 규정 준수를 지원합니다.
- 확장된 프로비저닝 배포: 전용 용량이 필요한 고객을 위해 글로벌 SKU로 가용성을 확장합니다.
- 미세 조정의 일반 가용성: GPT-4o 및 미니 모델을 특수한 사용 사례에 맞게 조정할 수 있습니다.
- 신뢰할 수 있는 AI: 사전 위험 평가를 지원하는 Azure AI Studio의 평가와 DALL*E에서 생성된 이미지에 대한 워터마킹을 포함한 새로운 도구입니다.
- 캐시 프롬프트 (출시 예정): GPT-4o 및 o1 모델의 캐싱을 통해 더 저렴하고 빠른 추론이 가능합니다.
이러한 지속적인 발전은 전 세계 고객에게 가장 포괄적이고 안전하며 다양한 AI 도구를 제공하려는 Azure의 노력을 보여줍니다. 뉴스피드를 북마크에 추가하세요 향후 모든 공지 사항을 추적합니다.
GPT-4o-실시간 미리보기의 새로운 기능은 무엇입니까?
GPT-4o-실시간 API: 이번 릴리스를 통해 GPT-4o는 오디오 입력 및 출력을 지원하도록 진화하여 기존의 텍스트 기반 AI 대화를 뛰어넘는 실시간, 자연스러운 음성 기반 상호 작용을 가능하게 합니다. 이 다중 모드 기능을 통해 개발자는 혁신적인 음성 애플리케이션을 쉽게 구축할 수 있습니다.
Azure AI Studio 조기 액세스 플레이그라운드: 탐색을 열망하는 개발자를 위해 이 전용 공간을 통해 오디오 기능용 GPT-4o-Realtime API를 조기에 실험할 수 있습니다. 스튜디오는 프로덕션 환경에 출시하기 전에 음성 상호 작용을 테스트하고 미세 조정하고 최적화할 수 있는 환경을 제공합니다.
그 자체로 말하는 성능
오디오용 GPT-4o-Realtime API를 사용하는 초기 고객은 놀라운 결과를 공유하여 성능과 영향을 확인했습니다.
- 더 빠른 응답: 오디오용 GPT-4o-Realtime API는 기존의 많은 텍스트 음성 변환 엔진보다 훨씬 빠른 음성 응답을 제공하므로 지연 시간이 줄어들고 상호 작용이 원활해집니다.
- 자연스러운 대화: 이 모델은 AI 생성 음성과 관련된 로봇식 톤을 최소화하여 대화를 더욱 흥미롭게 만듭니다.
- 다국어 지원: API는 다양한 언어를 지원하므로 글로벌 애플리케이션에 적용할 수 있는 자연스러운 다국어 대화가 가능합니다.
Azure OpenAI 서비스의 GPT-4o-Realtime-Preview 애플리케이션
GPT-4o-Realtime-Preview의 잠재력은 다양한 산업에 걸쳐 비즈니스 운영 방식과 사용자가 기술과 상호 작용하는 방식을 변화시킵니다.
- 고객 서비스: 이제 음성 기반 챗봇과 가상 비서가 고객 문의를 보다 자연스럽고 효율적으로 처리하여 대기 시간을 줄이고 전반적인 만족도를 높일 수 있습니다.
- 콘텐츠 제작: 미디어 제작자는 비디오 게임, 팟캐스트 및 영화 스튜디오에서 사용할 음성 생성을 활용하여 워크플로를 혁신할 수 있습니다.
- 실시간 번역: 의료 및 법률 서비스와 같은 산업은 실시간 오디오 번역을 통해 언어 장벽을 허물고 중요한 상황에서 더 나은 커뮤니케이션을 촉진할 수 있습니다.
혁신을 주도하는 사용 사례
GPT-4o-Realtime-Preview의 다양성은 이미 다양한 분야의 운영을 변화시키고 있습니다. 다음은 얼리 어답터 몇 명과 이들이 이 기술을 통해 어떤 혜택을 누리고 있는지 소개합니다.
- 보쉬 (독일): 자동차 환경의 가상 현실 교육을 위해 오디오용 GPT-4o-Realtime API를 통합하여 소비자와 기술자가 음성 안내 지침을 받을 수 있도록 합니다.
“AOAI는 대화 우선 솔루션인 HeyBosch(Virtual Sales Executive Solution)에 이상적인 인터페이스입니다. AOAI를 기존 솔루션에 쉽게 통합할 수 있습니다. 참조 샘플을 제공해 주셔서 감사합니다. 이제 두 가지(음성 및 LLM)를 결합하는 단일 인터페이스가 있으므로 가상 에이전트의 응답 시간이 크게 향상되었습니다. 이는 대기 시간을 최소화하는 데 도움이 됩니다. 이번 통합은 GenAI, 3D 기술 및 실시간 음성 처리 기능을 결합하여 매력적인 사용자 경험을 창출할 수 있는 가능성을 보여줍니다.”—Vamsidhar Sunkari 수석 전문가 Bosch Global Software Technologies Pvt Ltd.
- 라이어버드 건강 (호주): GPT-4o-Realtime-Preview를 의료 부조종사로 사용하여 환자 정보를 요약하고 후속 작업을 실시간으로 자동화합니다.
“Lyrebird Health는 의료 제공자/환자 관계에 오디오 기능을 제공하게 된 것을 기쁘게 생각합니다. 새로운 GPT-4o 실시간 미리보기 모델을 통해 고객과 최종 사용자를 위한 새로운 경험을 실험하고 출시할 수 있습니다. 이는 지구상 최고의 인력 기술을 제공하려는 우리의 사명을 완수하는 데 도움이 될 것입니다.”—Kai Van Lieshout, Lyrebird Health의 공동 창립자 겸 CEO
- Azure AI 검색: VoiceRAG는 Azure OpenAI의 GPT-4o 실시간 오디오 모델과 Azure AI Search를 활용하여 RAG(검색 증강 생성)를 통해 고급 음성 기반 생성 AI 애플리케이션을 만듭니다. 이 시스템은 실시간 오디오 스트리밍과 함수 호출을 통합하여 지식 기반 검색을 수행하고 대기 시간을 저하하지 않고 기반이 확실한 응답을 보장합니다. VoiceRAG는 백엔드에서 모델 구성 및 검색 프로세스를 안전하게 처리함으로써 사용자 경험에 원활하게 표시되는 인용을 포함하는 자연스러운 대화형 인터페이스를 제공합니다. VoiceRAG 경험을 자세히 알아보세요. Microsoft 기술 커뮤니티의 전용 블로그.
신뢰할 수 있는 AI에 대한 우리의 약속
Azure는 책임감 있는 AI에 대한 약속을 확고히 유지하고 있습니다.안전과 개인정보 보호를 기본 우선순위로 삼습니다. Realtime API는 오용을 방지하기 위해 자동화된 모니터링 및 사람의 검토를 포함한 여러 계층의 안전 조치를 활용합니다.
Realtime API는 Responsible AI에 대한 약속에 따라 엄격한 평가를 거쳤습니다. 확인해 보세요 2024 책임 있는 AI 투명성 보고서.
Azure OpenAI 서비스는 추가 비용 없이 기본 제공 콘텐츠 안전 기능을 제공하고, Azure AI Studio는 AI 애플리케이션의 안전성을 평가하는 도구를 제공하여 안전하고 책임감 있는 AI 환경을 보장합니다.
오디오용 GPT-4o-Realtime API의 다음 단계는 무엇입니까?
오디오용 GPT-4o-Realtime API의 기능을 지속적으로 혁신하고 확장하면서 개발자와 기업이 이 최첨단 기술을 활용하여 가능성의 경계를 넓히는 음성 기반 애플리케이션을 만드는 방법을 보게 되어 기쁩니다.
고객 서비스 운영에 음성 기능을 통합하려는 경우나 다국어 상호 작용의 가능성을 모색하려는 경우 오디오용 GPT-4o-Realtime API는 AI 솔루션을 혁신할 수 있는 유연성과 성능을 제공합니다. 오늘부터 다음에서 이러한 새로운 기능을 탐색할 수 있습니다. Azure OpenAI 스튜디오Early Access Playground에서 실험해 보거나 공개 미리 보기의 실시간 API를 애플리케이션에 직접 통합하세요.
최신 업데이트에 대한 문서를 검토하고, 사용 가능한 사용 사례를 자세히 살펴보고, 오디오용 GPT-4o-Realtime API를 사용하여 구축을 시작하여 비즈니스를 AI 혁신의 한 단계 끌어올리십시오.
앞으로 몇 주 동안 계속 업데이트를 출시할 예정이므로 향후 고객 사례, 자세한 사용 사례 데모 등을 계속 지켜봐 주시기 바랍니다!
게시물 오디오 및 음성 기능이 포함된 GPT-4o-Realtime-Preview를 포함한 Azure OpenAI 서비스의 새로운 제품 및 기능 발표 처음 등장한 Microsoft AI 블로그.