군중이 많은 행사에 참석하여 목소리와 배경 소음에 둘러싸여 있지만, 바로 앞에 있는 사람과의 대화에 집중할 수 있다고 상상해 보세요. 시끄러운 배경 속에서 특정 소리를 분리하는 이 능력을 칵테일 파티 문제이 용어는 1958년 영국의 과학자 콜린 체리가 인간 뇌의 놀라운 능력을 설명하기 위해 처음 만들어냈습니다. AI 전문가들은 수십 년 동안 기계로 이 인간의 능력을 모방하려고 노력해 왔지만 여전히 엄청난 과제입니다. 그러나 최근 인공지능의 발전은 새로운 영역을 개척하고 있으며 이 문제에 대한 효과적인 솔루션을 제공합니다. 이는 오디오 기술의 변혁적 전환을 위한 토대를 마련합니다. 이 글에서는 AI가 칵테일 파티 문제를 해결하는 데 어떻게 발전하고 있는지, 그리고 미래 오디오 기술에 어떤 잠재력을 가지고 있는지 살펴봅니다. AI가 이를 해결하는 경향을 살펴보기 전에 먼저 인간이 이 문제를 어떻게 해결하는지 이해해야 합니다.
인간이 칵테일 파티 문제를 어떻게 해독하는가
인간은 소음이 많은 환경에서 길을 찾는 데 도움이 되는 독특한 청각 시스템을 가지고 있습니다. 우리의 뇌는 소리를 이중으로 처리합니다. 즉, 양쪽 귀의 입력을 사용하여 타이밍과 볼륨의 미세한 차이를 감지하여 소리의 위치를 감지하는 데 도움이 됩니다. 이 능력을 통해 다른 소리가 주의를 끌기 위해 경쟁할 때에도 듣고 싶은 목소리를 향해 방향을 잡을 수 있습니다.
청각을 넘어 인지 능력은 이 과정을 더욱 강화합니다. 선택적 주의는 무관한 소리를 걸러내어 중요한 정보에 집중할 수 있도록 도와줍니다. 한편, 맥락, 기억, 입술 읽기와 같은 시각적 단서는 말을 배경 소음에서 분리하는 데 도움이 됩니다. 이 복잡한 감각 및 인지 처리 시스템은 엄청나게 효율적이지만 기계 지능으로 복제하는 것은 여전히 어려운 일입니다.
AI가 여전히 어려움을 겪는 이유는 무엇일까?
바쁜 카페에서 우리의 명령을 인식하는 가상 비서부터 사용자가 단일 대화에 집중할 수 있도록 돕는 보청기까지 AI 연구자들은 칵테일 파티 문제를 해결하는 인간 뇌의 능력을 복제하기 위해 끊임없이 노력해 왔습니다. 이러한 탐구는 다음과 같은 기술을 개발하는 데 이르렀습니다. 블라인드 소스 분리(BSS) 그리고 독립 성분 분석(ICA)개별 처리를 위해 별개의 음원을 식별하고 분리하도록 설계되었습니다. 이러한 방법은 음원이 예측 가능하고 주파수가 크게 겹치지 않는 통제된 환경에서는 유망한 것으로 나타났지만, 특히 동적이고 예측할 수 없는 환경에서 겹치는 음성을 구별하거나 실시간으로 단일 음원을 분리하는 데 어려움을 겪습니다. 이는 주로 인간이 자연스럽게 활용하는 감각적이고 맥락적 깊이가 없기 때문입니다. 시각적 신호나 특정 톤에 대한 친숙함과 같은 추가 단서가 없으면 AI는 일상 환경에서 마주치는 복잡하고 혼란스러운 소리의 혼합을 관리하는 데 어려움을 겪습니다.
WaveSciences가 AI를 사용하여 문제를 해결한 방법
2019년에는 웨이브사이언스2009년 전기 엔지니어 Keith McElveen이 설립한 미국 기반 회사는 돌파구 칵테일 파티 문제를 해결하는 데에 있습니다. 그들의 솔루션인 Spatial Release from Masking(SRM)은 AI와 소리 전파의 물리학을 사용하여 화자의 목소리를 배경 소음에서 분리합니다. 인간의 청각 시스템이 여러 방향에서 오는 소리를 처리하기 때문에 SRM은 여러 개의 마이크를 사용하여 공간을 통과하는 음파를 포착합니다.
이 과정에서 중요한 과제 중 하나는 음파가 끊임없이 주변 환경에서 튀어다니고 섞여서 특정 음성을 수학적으로 분리하기 어렵다는 것입니다. 그러나 WaveSciences는 AI를 사용하여 각 소리의 출처를 정확히 파악하고 공간적 위치를 기반으로 배경 소음과 주변 음성을 필터링하는 방법을 개발했습니다. 이러한 적응성 덕분에 SRM은 움직이는 스피커나 새로운 소리의 도입과 같은 실시간 변화를 처리할 수 있어 예측할 수 없는 실제 오디오 설정에 어려움을 겪었던 이전 방법보다 상당히 효과적입니다. 이러한 발전은 소음이 많은 환경에서 대화에 집중할 수 있는 능력을 향상시킬 뿐만 아니라 오디오 기술의 미래 혁신을 위한 길을 열어줍니다.
AI 기술의 발전
최근 인공지능 분야의 진전, 특히 딥 신경망칵테일 파티 문제를 해결하는 기계의 능력을 크게 향상시켰습니다. 혼합 오디오 신호의 대규모 데이터 세트에서 훈련된 딥 러닝 알고리즘은 겹치는 음성 시나리오에서도 다양한 사운드 소스를 식별하고 분리하는 데 탁월합니다. 다음과 같은 프로젝트 바이오CPP넷 동물의 발성을 분리하여 이러한 방법의 효과를 성공적으로 입증했으며, 인간의 말을 넘어 다양한 생물학적 맥락에서 적용 가능하다는 것을 보여주었습니다. 연구자들은 딥 러닝 기술이 음악 환경에서 학습한 음성 분리를 새로운 상황에 적용하여 다양한 설정에서 모델 견고성을 향상시킬 수 있음을 보여주었습니다.
신경 빔포밍 여러 개의 마이크를 활용하여 특정 방향의 소리에 집중하고 배경 소음을 최소화함으로써 이러한 기능을 더욱 향상시킵니다. 이 기술은 오디오 환경에 따라 초점을 동적으로 조정하여 개선됩니다. 또한 AI 모델은 시간-주파수 마스킹 고유한 스펙트럼 및 시간적 특성으로 오디오 소스를 구별합니다. 고급 스피커 일기 시스템은 음성을 분리하고 개별 화자를 추적하여 체계적인 대화를 용이하게 합니다. AI는 입술 움직임과 같은 시각적 단서를 오디오 데이터와 함께 통합하여 특정 음성을 보다 정확하게 분리하고 향상시킬 수 있습니다.
칵테일 파티 문제의 실제 세계 응용
이러한 발전은 오디오 기술의 발전을 위한 새로운 길을 열었습니다. 일부 실제 응용 프로그램은 다음과 같습니다.
- 법의학적 분석: 에 따르면 BBC 보도음성 인식 및 조작(SRM) 기술은 법정에서 오디오 증거를 분석하는 데 사용되었으며, 특히 배경 소음으로 인해 화자와 대화의 식별이 복잡해지는 경우에 사용되었습니다. 종종 이러한 시나리오에서 녹음된 내용은 증거로 사용할 수 없게 됩니다. 그러나 SRM은 법정에서 발표하기 위해 중요한 오디오를 성공적으로 디코딩하여 법의학적 맥락에서 매우 귀중한 것으로 입증되었습니다.
- 소음 차단 헤드폰: 연구원들은 프로토타입 AI 시스템을 개발했습니다. 타겟 음성 청력 사용자가 다른 소리를 취소하는 동안 특정 사람의 목소리를 계속 들을 수 있도록 하는 소음 제거 헤드폰용입니다. 이 시스템은 칵테일 파티 문제 기반 기술을 사용하여 컴퓨팅 파워가 제한된 헤드폰에서 효율적으로 실행됩니다. 현재는 개념 증명이지만, 개발자는 헤드폰 브랜드와 잠재적으로 이 기술을 통합하기 위해 논의 중입니다.
- 보청기: 현대의 보청기는 소음이 많은 환경에서 종종 어려움을 겪으며, 특정 음성을 배경 소리에서 분리하지 못합니다. 이러한 장치는 소리를 증폭할 수 있지만, 인간의 귀가 경쟁하는 소음 속에서 단일 대화에 집중할 수 있도록 하는 고급 필터링 메커니즘이 부족합니다. 이러한 제한은 특히 음성이 겹치고 소음 수준이 변동하는 혼잡하거나 역동적인 환경에서 어렵습니다. 칵테일 파티 문제에 대한 해결책은 주변 소음을 최소화하면서 원하는 음성을 분리하여 보청기를 향상시킬 수 있습니다.
- 통신: 통신 분야에서 AI는 배경 소음을 걸러내고 화자의 목소리를 강조함으로써 통화 품질을 향상시킬 수 있습니다. 이를 통해 특히 번잡한 거리나 붐비는 사무실과 같은 시끄러운 환경에서 더욱 명확하고 신뢰할 수 있는 커뮤니케이션이 가능해집니다.
- 음성 지원: Amazon의 Alexa와 Apple의 Siri와 같은 AI 기반 음성 비서는 시끄러운 환경에서 더 효과적이 될 수 있으며 칵테일 파티 문제를 더 효율적으로 해결할 수 있습니다. 이러한 발전을 통해 기기는 백그라운드 채팅 중에도 사용자 명령을 정확하게 이해하고 응답할 수 있습니다.
- 오디오 녹음 및 편집: AI 기반 기술은 녹음된 자료에서 개별 사운드 소스를 분리하여 후반 작업에서 오디오 엔지니어를 지원할 수 있습니다. 이 기능을 사용하면 트랙을 더 깨끗하게 하고 편집을 더 효율적으로 할 수 있습니다.
결론
오디오 처리의 중요한 과제인 칵테일 파티 문제는 AI 기술을 통해 놀라운 발전을 이루었습니다. Spatial Release from Masking(SRM) 및 딥 러닝 알고리즘과 같은 혁신은 기계가 시끄러운 환경에서 소리를 분리하고 분리하는 방식을 재정의하고 있습니다. 이러한 획기적인 발전은 혼잡한 환경에서의 더 명확한 대화 및 보청기 및 음성 지원의 개선된 기능과 같은 일상적인 경험을 향상시킵니다. 그럼에도 불구하고 법의학 분석, 통신 및 오디오 제작 애플리케이션에 대한 혁신적인 잠재력도 가지고 있습니다. AI가 계속 발전함에 따라 인간의 청각 기능을 모방하는 능력은 오디오 기술에서 훨씬 더 중요한 발전으로 이어질 것이며 궁극적으로 일상 생활에서 소리와 상호 작용하는 방식을 바꿀 것입니다.
게시물 AI가 ‘칵테일 파티 문제’를 해결하는 방식과 미래 오디오 기술에 미치는 영향 처음 등장 유나이트.AI.