AI 뉴스허브

AI가 수화 인식을 그 어느 때보다 더 정확하게 만드는 방법

AI가 수화 인식을 그 어느 때보다 더 정확하게 만드는 방법

AI가 수화 인식을 그 어느 때보다 더 정확하게 만드는 방법

의사소통 장벽을 허무는 것에 대해 생각할 때 우리는 종종 다음에 초점을 맞춥니다. 언어 번역 앱 또는 음성 비서. 그러나 수화를 사용하는 수백만 명의 사람들에게는 이러한 도구가 격차를 해소하지 못했습니다. 수화는 단지 손의 움직임에 관한 것이 아니라 얼굴 표정과 신체 언어를 포함하는 풍부하고 복잡한 형태의 의사소통이며, 각 요소는 중요한 의미를 담고 있습니다.

이것이 특히 어려운 점은 다음과 같습니다. 주로 어휘와 문법이 다양한 구어와 달리 전 세계 수화는 의미를 전달하는 방식이 근본적으로 다릅니다. 예를 들어, 미국 수화(ASL)에는 구어체 영어와 일치하지 않는 고유한 문법과 구문이 있습니다.

이러한 복잡성은 수화를 실시간으로 인식하고 번역하는 기술을 개발하려면 전체 언어 시스템에 대한 이해가 필요하다는 것을 의미합니다.

인정에 대한 새로운 접근 방식

플로리다 애틀랜틱 대학교(FAU) 공학 및 컴퓨터 과학 대학 팀이 새로운 접근 방식을 취하기로 결정한 곳이 바로 여기입니다. 그들은 수화의 전체 복잡성을 한 번에 해결하려고 시도하는 대신 AI를 통해 전례 없는 정확도로 ASL 알파벳 제스처를 인식하는 중요한 첫 번째 단계를 마스터하는 데 집중했습니다.

컴퓨터에 손글씨를 읽도록 가르치는 것과 비슷하지만 3차원으로 움직이며 움직입니다. 팀은 ASL 손 제스처를 보여주는 29,820개의 정적 이미지로 구성된 데이터세트라는 놀라운 것을 구축했습니다. 하지만 그들은 단지 사진만 수집한 것이 아닙니다. 그들은 각 이미지에 손의 21개 주요 지점을 표시하여 손이 어떻게 움직이고 다양한 기호를 형성하는지에 대한 상세한 지도를 만들었습니다.

이끈 바데르 알샤리프 박사(Dr. Bader Alsharif) 이 연구 박사로서. 후보자는 다음과 같이 설명합니다. “이 방법은 이전 연구에서 탐구되지 않았으며 향후 발전을 위한 새롭고 유망한 방향이 됩니다.”

기술 분석

이 수화 인식 시스템을 작동시키는 기술의 조합을 살펴보겠습니다.

MediaPipe 및 YOLOv8

MediaPipe와 YOLOv8이라는 두 가지 강력한 도구의 완벽한 통합을 통해 마법이 일어납니다. MediaPipe를 전문적인 손 관찰자, 즉 모든 미묘한 손가락 움직임과 손 위치를 추적할 수 있는 숙련된 수화 통역사라고 생각하십시오. 연구팀은 위에서 언급한 것처럼 각 손의 21개 정확한 지점을 식별하여 정확한 손 랜드마크 추적을 제공하는 뛰어난 기능 때문에 특히 MediaPipe를 선택했습니다.

그러나 추적만으로는 충분하지 않습니다. 이러한 움직임이 무엇을 의미하는지 이해해야 합니다. 이것이 바로 YOLOv8이 등장하는 곳입니다. YOLOv8은 패턴 인식 전문가로서 추적된 모든 지점을 가져와서 그것이 나타내는 문자나 제스처를 알아냅니다. 연구에 따르면 YOLOv8은 이미지를 처리할 때 이미지를 S × S 그리드로 나누고, 각 그리드 셀은 경계 내의 개체(이 경우 손 동작)를 감지하는 역할을 한다는 것을 보여줍니다.

Alsharif 등, 프랭클린 오픈(2024)

시스템이 실제로 작동하는 방식

이 과정은 언뜻 보이는 것보다 더 정교합니다.

뒤에서 일어나는 일은 다음과 같습니다.

손 감지 단계

표지판을 만들 때 MediaPipe는 먼저 프레임에서 손을 식별하고 21개의 핵심 포인트를 매핑합니다. 이는 단지 임의의 점이 아닙니다. 이는 손가락 끝에서 손바닥 바닥까지 손의 특정 관절 및 랜드마크에 해당합니다.

공간분석

그런 다음 YOLOv8은 이 정보를 가져와 실시간으로 분석합니다. 이미지의 각 그리드 셀에 대해 다음을 예측합니다.

분류

시스템은 “경계 상자 예측”이라는 것을 사용합니다. 손 동작 주위에 완벽한 직사각형을 그리는 것을 상상해 보십시오. YOLOv8은 각 상자에 대해 중앙, 너비, 높이 및 신뢰도 점수에 대한 x 및 y 좌표 등 다섯 가지 중요한 값을 계산합니다.

Alsharif 등, 프랭클린 오픈(2024)

이 조합이 효과적인 이유

연구팀은 이들 기술을 결합해 부품의 합보다 더 큰 것을 만들어낸다는 사실을 발견했다. MediaPipe의 정확한 추적과 YOLOv8의 고급 개체 감지 기능이 결합되어 놀랍도록 정확한 결과를 얻었습니다. 우리는 98%의 정밀도와 99%의 F1 점수에 대해 이야기하고 있습니다.

특히 인상적인 점은 시스템이 수화의 복잡성을 처리하는 방식입니다. 일부 징후는 훈련받지 않은 사람의 눈에는 매우 유사해 보일 수 있지만 시스템은 미묘한 차이점을 발견할 수 있습니다.

기록적인 결과

연구자들이 새로운 기술을 개발할 때 가장 큰 질문은 항상 “실제로 얼마나 잘 작동하는가?”입니다. 이 수화 인식 시스템의 결과는 인상적입니다.

FAU 팀은 엄격한 테스트를 통해 시스템을 테스트한 결과 다음과 같은 사실을 발견했습니다.

Alsharif는 “우리 연구 결과는 미국 수화 제스처를 오류 없이 정확하게 감지하고 분류하는 모델의 능력을 보여줍니다.”라고 설명합니다.

이 시스템은 다양한 조명, 다양한 손 위치, 심지어 다양한 사람들이 서명하는 등 일상적인 상황에서 잘 작동합니다.

이 획기적인 발전은 수화 인식의 가능성을 넓혀줍니다. 이전 시스템은 정확성에 어려움을 겪었지만 MediaPipe의 손 추적과 YOLOv8의 감지 기능을 결합하여 연구팀은 특별한 것을 만들었습니다.

연구의 공동 저자 중 한 명인 Mohammad Ilyas는 “이 모델의 성공은 주로 전이 학습, 세심한 데이터 세트 생성 및 정밀한 조정의 신중한 통합에 기인합니다”라고 말합니다. 세부 사항에 대한 이러한 관심은 시스템의 놀라운 성능으로 결실을 맺었습니다.

이것이 의사소통에 미치는 영향

이 시스템의 성공은 의사소통을 보다 쉽게 ​​접근할 수 있고 포괄적으로 만들 수 있는 흥미로운 가능성을 열어줍니다.

팀은 문자 인식에만 그치지 않습니다. 다음으로 큰 과제는 시스템이 훨씬 더 넓은 범위의 손 모양과 제스처를 이해하도록 가르치는 것입니다. 수화의 문자 ‘M’과 ‘N’처럼 기호가 거의 동일해 보이는 순간을 생각해 보세요. 연구원들은 시스템이 이러한 미묘한 차이를 더욱 잘 포착할 수 있도록 노력하고 있습니다. Alsharif 박사는 다음과 같이 말했습니다. “중요하게도 이 연구의 결과는 시스템의 견고성뿐만 아니라 실제 실시간 애플리케이션에 사용될 수 있는 잠재력도 강조합니다.”

현재 팀은 다음 사항에 중점을 두고 있습니다.

FAU 공학 및 컴퓨터 과학 대학의 학장 Stella Batalama는 다음과 같은 더 큰 비전을 공유합니다. “이 작업은 미국 수화 인식을 개선함으로써 청각 장애가 있는 지역 사회를 위한 의사 소통을 향상할 수 있는 도구를 만드는 데 기여합니다.”

의사 진료실에 들어가거나 이 기술이 의사소통 격차를 즉시 해소하는 수업에 참석한다고 상상해 보십시오. 관련된 모든 사람의 일상적인 상호 작용을 더욱 원활하고 자연스럽게 만드는 것이 여기서의 진정한 목표입니다. 실제로 사람들의 연결을 돕는 기술을 만들고 있습니다. 교육, 의료, 일상 대화 등에서 이 시스템은 의사소통 장벽이 점점 작아지는 세상을 향한 한 단계를 나타냅니다.

게시물 AI가 수화 인식을 그 어느 때보다 더 정확하게 만드는 방법 처음 등장한 Unite.AI.

Exit mobile version