언어 모델링을 위한 작업별 미세 조정에 따른 대규모 사전 학습의 놀라운 성공은 이 접근 방식을 표준 관행으로 확립했습니다. 마찬가지로, 컴퓨터 비전 방법은 사전 학습을 위해 광범위한 데이터 규모를 점진적으로 수용하고 있습니다. LAION5B, Instagram-3.5B, JFT-300M, LVD142M, Visual Genome, YFCC100M과 같은 대규모 데이터 세트의 등장으로 기존 벤치마크의 범위를 훨씬 넘어서는 데이터 코퍼스를 탐색할 수 있게 되었습니다. 이 도메인의 주요 작업에는 DINOv2, MAWS, AIM이 포함됩니다. DINOv2는 LDV-142M 데이터 세트에서 대조 iBot 방법을 확장하여 자체 감독 기능을 생성하는 데 최첨단 성능을 달성합니다. MAWS는 10억 개의 이미지에서 마스크 자동 인코더(MAE)의 확장을 연구합니다. AIM은 비전 변환기를 위한 BERT와 유사한 자동 회귀 시각적 사전 학습의 확장성을 탐구합니다. 이러한 방법들은 주로 일반적인 이미지 사전 학습이나 제로샷 이미지 분류에 초점을 맞추지만, Sapiens는 뚜렷하게 인간 중심적인 접근 방식을 취합니다. Sapiens의 모델은 사전 학습을 위해 방대한 인간 이미지 컬렉션을 활용하고, 이후 다양한 인간 관련 작업에 대한 미세 조정을 수행합니다. 대규모 3D 인간 디지털화 추구는 컴퓨터 비전에서 여전히 핵심적인 목표입니다.
통제된 환경이나 스튜디오 환경에서 상당한 진전이 이루어졌지만, 이러한 방법을 제약 없는 환경으로 확장하는 데는 여전히 어려움이 있습니다. 이러한 과제를 해결하기 위해 주요 지점 추정, 신체 부위 분할, 깊이 추정, 자연 환경의 이미지에서 표면 정상 예측과 같은 여러 가지 기본 작업을 수행할 수 있는 다재다능한 모델을 개발하는 것이 중요합니다. 이 연구에서 Sapiens는 야생 환경으로 일반화되는 이러한 필수적인 인간 시각 작업에 대한 모델을 개발하는 것을 목표로 합니다. 현재 가장 큰 공개적으로 액세스 가능한 언어 모델에는 100B 이상의 매개변수가 포함되어 있는 반면, 보다 일반적으로 사용되는 언어 모델에는 약 7B의 매개변수가 포함되어 있습니다. 이와 대조적으로, Vision Transformers(ViT)는 유사한 아키텍처를 공유함에도 불구하고 이 정도로 성공적으로 확장되지 않았습니다. 텍스트와 이미지 모두에서 학습된 고밀도 ViT-4B의 개발과 ViT-22B의 안정적인 학습을 위한 기술의 공식화를 포함하여 이 방향으로 주목할 만한 노력이 있지만, 일반적으로 사용되는 비전 백본은 여전히 300M에서 600M 사이의 매개변수 범위에 있으며 주로 약 224픽셀의 이미지 해상도에서 사전 학습됩니다. 마찬가지로 DiT와 같은 기존의 변압기 기반 이미지 생성 모델은 700M 미만의 매개변수를 사용하고 고도로 압축된 잠재 공간에서 작동합니다. 이러한 격차를 해소하기 위해 Sapiens는 수백만 개의 인간 이미지에서 1024픽셀 이미지 해상도로 기본적으로 사전 학습된 대규모 고해상도 ViT 모델 컬렉션을 도입합니다.
Sapiens는 2D 포즈 추정, 신체 부위 분할, 깊이 추정 및 표면 정상 예측의 네 가지 기본적인 인간 중심 시각 작업을 위한 모델 패밀리를 제공합니다. Sapiens 모델은 기본적으로 1K 고해상도 추론을 지원하며 3억 개가 넘는 실제 인간 이미지에서 사전 학습된 모델을 미세 조정하기만 하면 개별 작업에 매우 쉽게 적용할 수 있습니다. Sapiens는 동일한 계산 예산이 주어졌을 때 큐레이팅된 인간 이미지 데이터 세트에 대한 자체 감독 사전 학습이 다양한 인간 중심 작업 세트에 대한 성능을 크게 향상시킨다는 것을 관찰합니다. 레이블이 지정된 데이터가 부족하거나 완전히 합성된 경우에도 결과 모델은 실제 데이터에 대한 놀라운 일반화를 보여줍니다. 간단한 모델 설계는 또한 확장성을 제공합니다. 매개변수 수가 0.3에서 20억으로 확장됨에 따라 작업 간 모델 성능이 향상됩니다. Sapiens는 다양한 인간 중심 벤치마크에서 기존 기준을 지속적으로 뛰어넘으며 이전의 최첨단 결과에 비해 상당한 개선을 이루었습니다. Humans-5K(포즈)에서 7.6 mAP, Humans-2K(부분 세그먼트)에서 17.1 mIoU, Hi4D(깊이)에서 22.4% 상대 RMSE, THuman2(일반)에서 53.5% 상대 각도 오차를 기록했습니다.
사피엔스: 인간 시각 모델의 혁신
최근 몇 년 동안 2D 및 3D에서 사실적인 인간을 생성하는 데 있어 놀라운 진전이 있었습니다. 이러한 방법의 성공은 2D 키 포인트, 세밀한 신체 부위 분할, 깊이 및 표면 법선과 같은 다양한 자산의 견고한 추정에 크게 기인합니다. 그러나 이러한 자산의 견고하고 정확한 추정은 여전히 활발한 연구 분야이며, 개별 작업의 성능을 높이기 위한 복잡한 시스템은 종종 광범위한 채택을 방해합니다. 게다가, 실제 환경에서 정확한 지상 진실 주석을 얻는 것은 확장하기 어려운 것으로 악명이 높습니다. Sapiens의 목표는 실제 환경에서 이러한 자산을 추론하기 위한 통합 프레임워크와 모델을 제공하여 모든 사람을 위한 광범위한 인간 중심 응용 프로그램을 여는 것입니다.
사피엔스는 이러한 인간 중심 모델이 일반화, 광범위한 적용성, 높은 충실도라는 세 가지 기준을 충족해야 한다고 주장합니다. 일반화는 보이지 않는 조건에 대한 견고성을 보장하여 모델이 다양한 환경에서 일관되게 수행될 수 있도록 합니다. 광범위한 적용성은 모델의 다재다능함을 나타내므로 최소한의 수정으로 광범위한 작업에 적합합니다. 높은 충실도는 모델이 충실한 인간 생성 작업에 필수적인 정확하고 고해상도의 출력을 생성할 수 있는 능력을 나타냅니다. 이 논문은 이러한 속성을 구현하는 모델의 개발을 자세히 설명하며, 이를 통칭하여 사피엔스라고 합니다.
통찰력에 따라 Sapiens는 일반화에 중요한 대규모 데이터 세트와 확장 가능한 모델 아키텍처를 활용합니다. 보다 광범위한 적용성을 위해 Sapiens는 사전 학습 후 미세 조정 방식을 채택하여 최소한의 조정으로 특정 작업에 대한 사전 학습 후 적응을 가능하게 합니다. 이 방식은 중요한 질문을 제기합니다. 사전 학습에 가장 효과적인 데이터 유형은 무엇일까요? 계산 한계를 감안할 때 가능한 한 많은 인간 이미지를 수집하는 데 중점을 두어야 할까요? 아니면 실제 세계의 변동성을 더 잘 반영하기 위해 덜 선별된 세트에서 사전 학습하는 것이 더 바람직할까요? 기존 방법은 종종 다운스트림 작업의 맥락에서 사전 학습 데이터 분포를 간과합니다. 사전 학습 데이터 분포가 인간 특정 작업에 미치는 영향을 연구하기 위해 Sapiens는 3억 개의 다양한 인간 이미지가 포함된 Humans-300M 데이터 세트를 수집합니다. 이러한 레이블이 지정되지 않은 이미지는 매개변수 수가 300M에서 2B에 이르는 비전 변환기 패밀리를 처음부터 사전 학습하는 데 사용됩니다.
대규모 데이터 세트에서 일반적인 시각적 특징을 학습하기 위한 다양한 자기 감독 방법 중 Sapiens는 다음을 선택합니다. 마스크 오토인코더 (MAE) 접근법은 사전 학습의 단순성과 효율성 때문에 선호됩니다. 대조적 또는 다중 추론 전략에 비해 단일 패스 추론 모델을 사용하는 MAE는 동일한 계산 리소스로 더 많은 양의 이미지를 처리할 수 있습니다. 이전 방법과 달리 더 높은 충실도를 위해 Sapiens는 사전 학습의 기본 입력 해상도를 1024픽셀로 늘려 가장 큰 기존 비전 백본에 비해 FLOP가 약 4배 증가합니다. 각 모델은 1조 2,000억 개의 토큰으로 사전 학습됩니다. 인간 중심 작업에 대한 미세 조정을 위해 Sapiens는 일관된 인코더-디코더 아키텍처를 사용합니다. 인코더는 사전 학습의 가중치로 초기화되는 반면, 가볍고 작업별 헤드인 디코더는 무작위로 초기화됩니다. 그런 다음 두 구성 요소 모두 엔드 투 엔드로 미세 조정됩니다. Sapiens는 다음 그림에서 볼 수 있듯이 2D 포즈 추정, 신체 부위 분할, 깊이 및 정상 추정의 네 가지 핵심 작업에 중점을 둡니다.
이전 연구와 일관되게 Sapiens는 모델의 실제 성능에 대한 레이블 품질의 중요한 영향을 확인합니다. 공개 벤치마크에는 종종 노이즈가 있는 레이블이 포함되어 있어 모델 미세 조정 중에 일관되지 않은 감독 신호를 제공합니다. 동시에 Sapiens의 3D 인간 디지털화라는 주요 목표와 긴밀하게 일치하도록 세분화되고 정확한 주석을 활용하는 것이 중요합니다. 이를 위해 Sapiens는 포즈 추정을 위한 2D 전신 키 포인트의 상당히 더 밀도가 높은 세트와 신체 부위 분할을 위한 자세한 클래스 어휘를 제안하여 이전 데이터 세트의 범위를 넘어섭니다. 구체적으로 Sapiens는 신체, 손, 발, 표면 및 얼굴을 포함하는 308개의 키 포인트의 포괄적인 컬렉션을 도입합니다. 또한 Sapiens는 분할 클래스 어휘를 머리카락, 혀, 이빨, 윗입술/아랫입술 및 몸통과 같은 신체 부위를 포함하는 28개 클래스로 확장합니다. 주석의 품질과 일관성, 그리고 높은 수준의 자동화를 보장하기 위해 Sapiens는 다중 뷰 캡처 설정을 사용하여 포즈 및 분할 주석을 수집합니다. Sapiens는 또한 RenderPeople의 600개 상세 스캔을 활용하여 깊이와 노멀 추정을 위해 인간 중심의 합성 데이터를 사용하여 고해상도 깊이 맵과 표면 노멀을 생성합니다. Sapiens는 도메인별 대규모 사전 학습과 제한적이지만 고품질의 주석을 결합하면 강력한 야생 일반화가 가능함을 보여줍니다. 전반적으로 Sapiens의 방법은 비용이 많이 들고 다양한 주석 세트를 수집할 필요 없이 실제 시나리오에서 수행할 수 있는 매우 정밀한 판별 모델을 개발하기 위한 효과적인 전략을 보여줍니다.
사피엔스: 방법과 건축
사피엔스는 사전 학습을 위해 마스크 오토인코더(MAE) 접근 방식을 따릅니다. 모델은 부분적 관찰을 바탕으로 원래의 인간 이미지를 재구성하도록 학습됩니다. 모든 오토인코더와 마찬가지로 사피엔스의 모델은 가시 이미지를 잠재 표현에 매핑하는 인코더와 이 잠재 표현에서 원래 이미지를 재구성하는 디코더를 갖추고 있습니다. 사전 학습 데이터 세트는 단일 및 다중 인간 이미지로 구성되며, 각 이미지는 정사각형 종횡비로 고정된 크기로 조정됩니다. 다음과 유사합니다. 비전이미지는 고정된 패치 크기를 가진 일반 비겹침 패치로 나뉩니다. 이러한 패치의 하위 집합은 무작위로 선택되어 마스크 처리되고 나머지는 보이게 됩니다. 마스크된 패치와 보이는 패치의 비율인 마스크 비율은 훈련 내내 고정됩니다.
사피엔스의 모델은 크기, 작물, 피험자의 나이와 민족, 피험자 수를 포함한 다양한 이미지 특성에 걸쳐 일반화를 보여줍니다. 모델의 각 패치 토큰은 표준 ViT의 0.4%에 비해 이미지 영역의 0.02%를 차지하여 16배 감소하여 모델에 대한 세밀한 토큰 간 추론을 제공합니다. 마스크 비율을 95%로 증가시키더라도 사피엔스의 모델은 보류된 샘플에서 인체 해부학을 그럴듯하게 재구성합니다. 보이지 않는 인간 이미지에서 사피엔스의 사전 학습된 모델을 재구성하는 모습은 다음 이미지에서 보여줍니다.
또한 Sapiens는 사전 학습을 위해 약 10억 개의 야생 이미지로 구성된 대규모 독점 데이터 세트를 활용하며, 전적으로 인간 이미지에 초점을 맞춥니다. 사전 처리에는 워터마크, 텍스트, 예술적 묘사 또는 부자연스러운 요소가 있는 이미지를 버리는 것이 포함됩니다. 그런 다음 Sapiens는 기성품인 사람 경계 상자 감지기를 사용하여 이미지를 필터링하고 감지 점수가 0.9 이상이고 경계 상자 크기가 300픽셀을 초과하는 이미지를 유지합니다. 데이터 세트의 2억 4,800만 개 이상의 이미지에는 여러 피험자가 포함되어 있습니다.
2D 포즈 추정
Sapien 프레임워크는 K = 17을 포함한 여러 스켈레톤에 걸쳐 P의 인코더와 디코더를 미세 조정합니다. [67]K = 133 [55] 다음 그림에서 볼 수 있듯이 K = 308인 새로운 매우 세부적인 골격이 있습니다.
최대 68개의 얼굴 핵심 포인트가 있는 기존 형식과 비교했을 때, Sapien의 주석은 눈, 입술, 코, 귀 주변의 대표 포인트를 포함하여 243개의 얼굴 핵심 포인트로 구성됩니다. 이 디자인은 실제 세계의 얼굴 표정의 미묘한 세부 사항을 세심하게 포착하도록 맞춤화되었습니다. 이러한 핵심 포인트를 사용하여 Sapien 프레임워크는 실내 캡처 설정에서 4K 해상도로 100만 개의 이미지에 수동으로 주석을 달았습니다. 이전 작업과 유사하게, 우리는 법선 추정기 N의 디코더 출력 채널을 각 픽셀의 법선 벡터의 xyz 구성 요소에 해당하는 3으로 설정했습니다. 생성된 합성 데이터는 표면 법선 추정을 위한 감독으로도 사용됩니다.
사피엔스: 실험과 결과
Sapiens-2B는 PyTorch를 사용하여 18일 동안 1024개의 A100 GPU를 사용하여 사전 학습되었습니다. Sapiens는 모든 실험에 AdamW 최적화 도구를 사용합니다. 학습 일정에는 간단한 선형 워밍업, 사전 학습을 위한 코사인 어닐링, 미세 조정을 위한 선형 감쇠가 포함됩니다. 모든 모델은 패치 크기가 16인 1024×1024 해상도에서 처음부터 사전 학습되었습니다. 미세 조정을 위해 입력 이미지의 크기를 4:3 비율, 즉 1024×768로 조정합니다. Sapiens는 자르기, 크기 조정, 뒤집기, 광도 왜곡과 같은 표준 증강을 적용합니다. 인간이 아닌 COCO 이미지의 무작위 배경이 추가됩니다. 세분화, 깊이 및 일반 예측 작업의 경우. 중요한 점은 Sapiens가 일반화를 보존하기 위해 차등 학습률을 사용한다는 점입니다. 초기 계층의 학습률은 낮고 후속 계층의 학습률은 점차 높아집니다. 계층별 학습률 감소는 인코더의 가중치 감소가 0.1인 0.85로 설정됩니다.
Sapiens의 설계 사양은 다음 표에 자세히 나와 있습니다. 특정 접근 방식에 따라 Sapiens는 깊이가 아닌 너비로 스케일링 모델을 우선시합니다. 특히 Sapiens-0.3B 모델은 기존 ViT-Large와 구조적으로 유사하지만 더 높은 해상도로 인해 20배 더 많은 FLOP로 구성됩니다.
Sapiens는 고충실도 주석을 사용하여 얼굴, 몸, 발, 손(K = 308) 포즈 추정을 위해 미세 조정되었습니다. Sapiens는 학습을 위해 1M 이미지가 있는 학습 세트를 사용하고, 평가를 위해 5K 이미지가 있는 Humans5K라는 테스트 세트를 사용합니다. 평가는 상향식 접근 방식을 따르며, Sapiens는 경계 상자에 기성품 감지기를 사용하고 단일 인간 포즈 추론을 수행합니다. 표 3은 전신 포즈 추정을 위한 기존 방법과 Sapiens 모델을 비교한 것입니다. 모든 방법은 Sapiens의 308개 핵심 어휘와 COCO-WholeBody의 133개 핵심 어휘 사이의 114개 공통 핵심 포인트에 대해 평가됩니다. Sapiens-0.6B는 현재 최첨단인 DWPose-1보다 +2.8 AP 더 뛰어납니다. 작업에 맞춰 기능을 추출하는 복잡한 학생-교사 프레임워크를 활용하는 DWPose와 달리 Sapiens는 대규모의 인간 중심 사전 학습을 갖춘 일반적인 인코더-디코더 아키텍처를 채택합니다.
흥미롭게도, 동일한 매개변수 수에서도 Sapiens 모델은 다른 모델에 비해 더 우수한 성능을 보여줍니다. 예를 들어, Sapiens-0.3B는 VitPose+-L보다 +5.6 AP, Sapiens-0.6B는 VitPose+-H보다 +7.9 AP 더 뛰어납니다. Sapiens 제품군 내에서 결과는 모델 크기와 성능 사이에 직접적인 상관 관계가 있음을 나타냅니다. Sapiens-2B는 61.1 AP로 새로운 최첨단 기술을 설정하여 기존 기술보다 +7.6 AP가 크게 향상되었습니다. 실내 캡처 스튜디오의 주석으로 미세 조정했음에도 불구하고 Sapiens는 다음 그림에서 볼 수 있듯이 실제 시나리오에 대한 강력한 일반화를 보여줍니다.
Sapiens는 28개 클래스의 분할 어휘를 사용하여 미세 조정되고 평가됩니다. 훈련 세트는 100K 이미지로 구성되고 테스트 세트인 Humans-2K는 2K 이미지로 구성됩니다. Sapiens는 각 방법별로 제안된 사전 학습된 체크포인트를 초기화로 사용하여 동일한 훈련 세트에서 미세 조정된 기존 신체 부위 분할 방법과 비교됩니다. 포즈 추정과 유사하게 Sapiens는 다음 표에서 보여지는 것처럼 분할에서 일반화를 보여줍니다.
흥미롭게도 가장 작은 모델인 Sapiens-0.3B는 더 높은 해상도와 대규모 인간 중심 사전 학습으로 인해 Mask2Former 및 DeepLabV3+와 같은 기존 최첨단 분할 방법보다 12.6mIoU 더 우수한 성능을 보였습니다. 또한 모델 크기를 늘리면 분할 성능이 더욱 향상됩니다. Sapiens-2B는 테스트 세트에서 81.2mIoU 및 89.4mAcc로 가장 우수한 성능을 달성합니다. 다음 그림은 Sapiens 모델의 정성적 결과를 보여줍니다.
결론
Sapiens는 인간 중심 비전 모델을 기초 모델 영역으로 발전시키는 데 중요한 단계를 나타냅니다. Sapiens 모델은 다양한 인간 중심 작업에서 강력한 일반화 기능을 보여줍니다. 최첨단 성능은 다음에 기인합니다. (i) 인간을 이해하기 위해 특별히 맞춤화된 큐레이트된 데이터 세트에 대한 대규모 사전 학습, (ii) 확장된 고해상도 및 대용량 비전 변환기 백본, (iii) 증강된 스튜디오 및 합성 데이터에 대한 고품질 주석. Sapiens 모델은 다양한 다운스트림 작업의 핵심 구성 요소가 될 수 있는 잠재력이 있으며, 커뮤니티의 훨씬 더 광범위한 부분에 고품질 비전 백본에 대한 액세스를 제공합니다.
게시물 사피엔스: 인간 시각 모델의 기초 처음 등장 유나이트.AI.