AI 뉴스허브

SAM 2 공개: 비디오 및 이미지에서 실시간 객체 분할을 위한 Meta의 새로운 오픈소스 기반 모델

SAM 2 공개: 비디오 및 이미지에서 실시간 객체 분할을 위한 Meta의 새로운 오픈소스 기반 모델

SAM 2 공개: 비디오 및 이미지에서 실시간 객체 분할을 위한 Meta의 새로운 오픈소스 기반 모델

지난 몇 년 동안 AI 세계는 텍스트 처리를 위한 기초 AI에서 놀라운 진전을 이루었으며, 고객 서비스에서 법률 분석에 이르기까지 산업을 변화시킨 발전이 있었습니다. 그러나 이미지 처리에 관해서는 아직 피상적인 단계에 불과합니다. 시각적 데이터의 복잡성과 이미지를 정확하게 해석하고 분석하기 위한 모델 훈련의 과제는 상당한 장애물을 제시했습니다. 연구자들이 이미지와 비디오를 위한 기초 AI를 계속 탐구함에 따라 AI의 이미지 처리 미래는 의료, 자율 주행차 등의 혁신을 위한 잠재력을 가지고 있습니다.

관심 대상에 해당하는 이미지의 정확한 픽셀을 찾는 것을 포함하는 객체 분할은 컴퓨터 비전에서 중요한 작업입니다. 전통적으로 이는 광범위한 인프라와 방대한 양의 주석이 달린 데이터가 필요한 특수 AI 모델을 만드는 것을 포함했습니다. 작년에 Meta는 세그먼트화 모델(SAM)기초 AI 사용자가 간단한 프롬프트로 이미지를 분할할 수 있도록 하여 이 프로세스를 간소화하는 모델입니다. 이 혁신은 전문 지식과 광범위한 컴퓨팅 리소스에 대한 필요성을 줄여 이미지 분할을 더 쉽게 만들었습니다.

이제 Meta는 이를 한 단계 더 발전시키고 있습니다. 샘 2. 이 새로운 반복은 SAM의 기존 이미지 분할 기능을 향상시킬 뿐만 아니라 비디오 처리까지 확장합니다. SAM 2는 이전에 접하지 않은 이미지와 비디오의 모든 객체를 분할할 수 있습니다. 이 발전은 컴퓨터 비전 및 이미지 처리 분야에서 획기적인 진전으로, 시각적 콘텐츠를 분석하기 위한 보다 다재다능하고 강력한 도구를 제공합니다. 이 기사에서는 SAM 2의 흥미로운 발전 사항을 살펴보고 컴퓨터 비전 분야를 재정의할 수 있는 잠재력을 고려해 보겠습니다.

Segment Anything Model(SAM) 소개

기존 세분화 방법은 대화형 세분화라고 알려진 수동 정제 또는 사전 정의된 범주로 자동 세분화하기 위한 광범위한 주석 데이터가 필요합니다. SAM은 클릭, 상자 또는 텍스트 입력과 같은 다재다능한 프롬프트를 사용하여 대화형 세분화를 지원하는 기초 AI 모델입니다. 또한 자동 세분화를 위해 최소한의 데이터와 컴퓨팅 리소스로 미세 조정할 수도 있습니다. 10억 개가 넘는 다양한 이미지 주석으로 학습된 SAM은 사용자 지정 데이터 수집이나 미세 조정 없이도 새로운 객체와 이미지를 처리할 수 있습니다.

SAM은 이미지를 처리하는 이미지 인코더와 클릭이나 텍스트와 같은 입력을 처리하는 프롬프트 인코더라는 두 가지 주요 구성 요소로 작동합니다. 이러한 구성 요소는 세그먼테이션 마스크를 예측하는 가벼운 디코더와 함께 제공됩니다. 이미지가 처리되면 SAM은 웹 브라우저에서 단 50밀리초 만에 세그먼트를 만들 수 있으므로 실시간 대화형 작업을 위한 강력한 도구가 됩니다. 연구자들은 SAM을 구축하기 위해 모델 지원 주석, 자동 및 지원 주석의 혼합, 완전 자동 마스크 생성의 3단계 데이터 수집 프로세스를 개발했습니다. 이 프로세스의 결과 SA-1B 데이터세트1,100만 개의 라이선스가 부여된 개인 정보 보호 이미지에 11억 개 이상의 마스크가 포함되어 있어 기존 데이터 세트보다 400배 더 큽니다. SAM의 인상적인 성능은 이 광범위하고 다양한 데이터 세트에서 비롯되며 이전 데이터 세트에 비해 다양한 지리적 지역에서 더 나은 표현을 보장합니다.

SAM 2 공개: 이미지에서 비디오 세분화로의 도약

SAM의 기반을 바탕으로 SAM 2는 이미지와 비디오 모두에서 실시간으로 프롬프트 가능한 객체 분할을 위해 설계되었습니다. 정적 이미지에만 초점을 맞춘 SAM과 달리 SAM 2는 각 프레임을 연속적인 시퀀스의 일부로 처리하여 비디오를 처리합니다. 이를 통해 SAM 2는 동적 장면과 변경되는 콘텐츠를 보다 효과적으로 처리할 수 있습니다. 이미지 분할의 경우 SAM 2는 SAM의 기능을 향상시킬 뿐만 아니라 대화형 작업에서 3배 더 빠르게 작동합니다.

SAM 2는 SAM과 동일한 아키텍처를 유지하지만 비디오 처리를 위한 메모리 메커니즘을 도입합니다. 이 기능을 통해 SAM 2는 이전 프레임의 정보를 추적하여 동작, 조명 또는 폐색의 변화에도 불구하고 일관된 객체 분할을 보장합니다. SAM 2는 이전 프레임을 참조하여 비디오 전체에서 마스크 예측을 개선할 수 있습니다.

이 모델은 새로 개발된 데이터 세트를 사용하여 학습되었습니다. SA-V 데이터 세트47개국의 51,000개 비디오에 대한 600,000개 이상의 마스크릿 주석이 포함되어 있습니다. 이 다양한 데이터 세트는 전체 객체와 그 부분을 모두 포괄하여 실제 세계 비디오 세분화에서 SAM 2의 정확도를 향상시킵니다.

SAM 2는 Apache 2.0 라이선스에 따라 오픈소스 모델로 제공되어 다양한 용도로 사용할 수 있습니다. Meta는 또한 CC BY 4.0 라이선스에 따라 SAM 2에 사용된 데이터 세트를 공유했습니다. 또한 웹 기반 데모 이를 통해 사용자는 모델을 탐색하고 모델의 성능을 확인할 수 있습니다.

잠재적 사용 사례

이미지와 비디오에 대한 실시간, 프롬프트 가능한 객체 분할에서 SAM 2의 기능은 다양한 분야에서 수많은 혁신적인 응용 프로그램을 열어주었습니다. 예를 들어, 이러한 응용 프로그램 중 일부는 다음과 같습니다.

SAM 2의 한계 극복: 실용적인 솔루션과 미래 개선

SAM 2는 이미지와 짧은 비디오에서 좋은 성능을 보이지만, 실제 사용에는 고려해야 할 몇 가지 한계가 있습니다. 특히 확장된 비디오에서 상당한 시점 변화, 긴 폐색 또는 혼잡한 장면에서 객체를 추적하는 데 어려움을 겪을 수 있습니다. 대화형 클릭을 통한 수동 수정은 이러한 문제를 해결하는 데 도움이 될 수 있습니다.

비슷한 모양의 물체가 있는 혼잡한 환경에서 SAM 2는 가끔 대상을 잘못 식별할 수 있지만, 이후 프레임의 추가 프롬프트가 이를 해결할 수 있습니다. SAM 2는 여러 객체를 분할할 수 있지만, 각 객체를 별도로 처리하기 때문에 효율성이 떨어집니다. 향후 업데이트에서는 공유된 상황 정보를 통합하여 성능을 향상시키는 것이 좋습니다.

SAM 2는 빠르게 움직이는 물체의 미세한 디테일을 놓칠 수도 있고, 프레임 전체에서 예측이 불안정할 수 있습니다. 그러나 추가 교육을 통해 이러한 한계를 해결할 수 있습니다. 주석의 자동 생성이 개선되었지만, 품질 검사와 프레임 선택을 위해서는 여전히 인간 주석자가 필요하며, 추가 자동화를 통해 효율성을 높일 수 있습니다.

결론

SAM 2는 이전 모델이 마련한 기반을 바탕으로 이미지와 비디오 모두에 대한 실시간 객체 분할에서 상당한 도약을 나타냅니다. SAM 2는 기능을 향상시키고 동적 비디오 콘텐츠로 기능을 확장함으로써 의료 및 자율 주행차부터 대화형 미디어 및 리테일까지 다양한 분야를 혁신할 것을 약속합니다. 특히 복잡하고 혼잡한 장면을 처리하는 데 있어 과제가 남아 있지만 SAM 2의 오픈 소스 특성은 지속적인 개선과 적응을 장려합니다. 강력한 성능과 접근성을 갖춘 SAM 2는 혁신을 주도하고 컴퓨터 비전 및 그 이상의 가능성을 확장할 준비가 되어 있습니다.

게시물 SAM 2 공개: 비디오 및 이미지에서 실시간 객체 분할을 위한 Meta의 새로운 오픈소스 기반 모델 처음 등장 유나이트.AI.

Exit mobile version