비전 언어 AI 모델에 대한 가장 큰 희망은 우리가 초기 경험을 통해 이러한 원리에 대한 타고난 이해를 발전시키는 것과 거의 동일한 방식으로 물리적 법칙의 원리를 통합하여 더 큰 자율성과 다양성을 가질 수 있게 되는 것입니다.
예를 들어, 어린이의 공 게임은 다음과 같은 경향이 있습니다. 운동 역학에 대한 이해그리고 궤도에 대한 무게와 표면 질감의 영향. 마찬가지로 욕조, 엎질러진 음료수, 바다, 수영장 및 기타 다양한 액체와 같은 일반적인 시나리오와의 상호 작용은 액체가 중력 하에서 거동하는 방식에 대한 다재다능하고 확장 가능한 이해를 심어줄 것입니다.
연소, 폭발, 압력에 따른 건축물의 무게 분포 등 흔하지 않은 현상에 대한 가정도 TV 프로그램, 영화, 소셜 미디어 동영상 노출을 통해 무의식적으로 흡수됩니다.
우리가 공부할 무렵에는 원칙 학문적 수준에서 이러한 시스템 뒤에 있는 우리는 단지 시스템에 대한 직관적인(그러나 정보가 없는) 정신 모델을 ‘개조’하는 것입니다.
마스터즈 오브 원
대조적으로 현재 대부분의 AI 모델은 더욱 ‘특화’되어 있으며 그 중 다수는 다음 중 하나입니다. 미세 조정된 또는 준거법에 대한 일반적인 이해를 개발하기 위해 설계된 것이 아니라 특정 사용 사례에 매우 특정한 이미지 또는 비디오 데이터 세트에 대해 처음부터 훈련되었습니다.
다른 사람들은 다음을 발표할 수 있습니다. 모습 물리적 법칙에 대한 이해; 그러나 사용자의 프롬프트에서 진정으로 참신하고 과학적으로 그럴듯한 묘사를 생성할 수 있는 방식으로 동작 물리학과 같은 영역의 기본을 실제로 이해하기보다는 훈련 데이터에서 샘플을 실제로 재현할 수 있습니다.
생성적 AI 시스템의 제품화 및 상용화에 있어서 이 민감한 순간에 새로운 AI 모델의 정교한 마케팅과 그 한계의 현실을 구별하는 것은 우리와 투자자의 면밀한 조사에 달려 있습니다.
11월의 하나 가장 흥미로운 논문Bytedance Research가 이끄는 는 다음과 같은 ‘다목적’ 생성 모델의 겉보기 기능과 실제 기능 간의 격차를 조사하면서 이 문제를 다루었습니다. 소라.
이 작업은 현재의 기술 수준에서 이러한 유형의 모델에서 생성된 출력이 더 가능성이 높다고 결론지었습니다. 훈련 데이터를 활용한 예시 현실 세계에서 작동하는 기본 물리적 제약에 대한 완전한 이해를 실제로 입증하는 것보다.
논문에는 다음과 같이 명시되어 있습니다*:
‘[These] 모델은 훈련 세트의 “기만적인” 예시에 의해 쉽게 편향될 수 있으며, 이로 인해 특정 조건에서 “사례 기반” 방식으로 일반화될 수 있습니다. 이 현상 역시 관찰됨 대규모 언어 모델에서 새로운 작업을 해결할 때 유사한 훈련 사례를 참조하는 모델의 경향을 설명합니다.
예를 들어, 균일한 선형 운동으로 움직이는 고속 공의 데이터에 대해 훈련된 비디오 모델을 생각해 보십시오. 비디오를 수평으로 뒤집어 데이터 증강을 수행하여 역방향 모션을 도입하면 모델은 이 동작이 물리적으로 정확하지 않더라도 초기 프레임 이후 저속 공이 방향을 바꾸는 시나리오를 생성할 수 있습니다.’
‘라는 제목의 논문을 자세히 살펴보겠습니다. 의사 결정을 위해 LLM을 사용하여 세계 모델 평가 – 곧. 하지만 먼저 이러한 명백한 한계의 배경을 살펴보겠습니다.
과거의 기억
없이 일반화훈련된 AI 모델은 훈련 데이터 섹션에 대한 참조가 포함된 값비싼 스프레드시트에 지나지 않습니다. 적절한 검색어를 찾고 해당 데이터의 인스턴스를 불러올 수 있습니다.
해당 시나리오에서 모델은 원하는 출력에 대한 추상적이거나 ‘창의적인’ 해석을 생성할 수 없기 때문에 효과적으로 ‘신경 검색 엔진’으로 작동합니다. 약간의 사소한 변형을 복제합니다. 학습 과정에서 본 데이터입니다.
이것은 다음과 같이 알려져 있습니다. 암기 – 진정으로 유연하고 해석적인 AI 모델은 세부 사항이 부족한 경향이 있는 반면, 진정으로 상세한 모델은 독창성과 유연성이 부족한 경향이 있기 때문에 발생하는 논란의 여지가 있는 문제입니다.
훈련 데이터를 재현하기 위해 암기의 영향을 받는 모델의 용량은 모델 작성자가 해당 데이터를 사용할 수 있는 자유로운 권리가 없는 경우 잠재적인 법적 장애물이 될 수 있습니다. 점점 더 많은 데이터를 통해 해당 데이터의 이점을 입증할 수 있습니다. 추출 방법.
기억으로 인해 승인되지 않은 데이터의 흔적이 남을 수 있습니다. 지속적이고 데이지 체인으로 연결되어 있으며 지워지지 않고 의도하지 않은 워터마크와 같은 여러 훈련 시스템을 통해 – 기계 학습 실무자가 ‘안전한’ 데이터가 사용되도록 주의를 기울인 프로젝트에서도 마찬가지입니다.
세계 모델
그러나 암기의 주요 사용 문제는 암기를 전달하는 경향이 있다는 것입니다. 지능에 대한 환상또는 AI 모델이 기본 법칙이나 영역을 일반화했다고 제안하지만 실제로 이러한 환상을 제공하는 것은 기억된 데이터의 양이 많습니다(즉, 모델에는 선택할 수 있는 잠재적인 데이터 사례가 너무 많아서 인간이 선택하기가 어렵습니다). 학습된 콘텐츠를 역류하는지 또는 생성과 관련된 개념에 대해 진정으로 추상적인 이해가 있는지 여부를 알려줍니다.
이 문제는 이에 대한 관심이 높아지는 데 영향을 미칩니다. 세계 모델 – 알려진 여러 법칙을 통합하고 풍부하게 탐색할 수 있는 매우 다양하고 비용이 많이 드는 훈련된 AI 시스템에 대한 전망입니다.
월드 모델은 생성 이미지와 비디오 공간에 특히 관심이 많습니다. 2023년 RunwayML은 연구 계획 그러한 모델의 개발 및 타당성에 대해 최근 딥마인드 고용된 이런 종류의 모델을 작업하기 위해 호평을 받은 Sora 생성 비디오의 창시자 중 한 명입니다. 그리고 스타트업 힉스필드 같은 이미지 및 비디오 합성을 위한 세계 모델에 상당한 투자를 하고 있습니다.
어려운 조합
생성 비디오 AI 시스템의 새로운 개발에 대한 약속 중 하나는 모션, 인간 운동학(예: 보행 특성), 유체 역학그리고 최소한 인간에게 시각적으로 친숙한 기타 알려진 물리적 현상.
생성 AI가 이 이정표를 달성할 수 있다면 여러 유형의 객체에 걸쳐 폭발, 홍수 및 그럴듯한 충돌 이벤트를 묘사하는 초현실적인 시각 효과를 생성할 수 있게 될 것입니다.
반면에 AI 시스템이 그러한 사건을 묘사하는 수천(또는 수십만) 개의 비디오에 대해 단순히 훈련을 받았다면, 사용자의 타겟 쿼리와 유사한 데이터 포인트; 아직 실패하다 쿼리가 데이터에 전혀 표시되지 않는 너무 많은 개념을 결합하는 경우.
또한 이러한 제한 사항은 이러한 종류의 도전적인 조합으로 시스템을 추진하기 전까지는 즉시 명백하지 않습니다.
이는 새로운 생성 시스템이 인상적이기는 하지만 시스템의 기능과 이해의 깊이에 대해 잘못된 인상을 줄 수 있는 바이러스성 비디오 콘텐츠를 생성할 수 있다는 것을 의미합니다. 왜냐하면 시스템이 나타내는 작업은 시스템에 대한 실제 도전이 아니기 때문입니다.
예를 들어, 다음과 같이 비교적 일반적이고 잘 확산된 이벤트입니다. ‘건물이 철거됐다’있을 수도 있음 여러 영상에서 물리학에 대해 어느 정도 이해하고 있어야 하는 모델을 훈련하는 데 사용되는 데이터 세트입니다. 따라서 모델은 아마도 이 개념을 잘 일반화할 수 있으며, 풍부한 비디오에서 학습된 매개변수 내에서 진정으로 새로운 출력을 생성할 수도 있습니다.
이것은 유통중 예를 들어, 데이터 세트에는 AI 시스템이 학습할 수 있는 유용한 예가 많이 포함되어 있습니다.
그러나 다음과 같이 좀 더 기괴하거나 그럴듯한 예를 요청한다면 ‘에펠탑은 외계인 침략자들에 의해 폭파되었습니다’모델은 ‘야금학적 특성’, ‘폭발의 특성’, ‘중력’, ‘바람 저항’ 및 ‘외계 우주선’과 같은 다양한 영역을 결합해야 합니다.
이것은 배포되지 않은 (OOD) 예제는 너무 많은 얽힌 개념을 결합하여 시스템이 설득력 있는 예제를 생성하지 못하거나 훈련된 가장 가까운 의미론적 예제를 기본값으로 사용하게 됩니다. 해당 예제가 사용자의 프롬프트를 준수하지 않는 경우에도 마찬가지입니다.
모델의 소스 데이터 세트에 동일하거나 유사한 이벤트를 묘사하는 헐리우드 스타일의 CGI 기반 VFX가 포함되어 있다는 점을 제외하면 이러한 묘사를 위해서는 물리 법칙에 대한 잘 일반화되고 유연한 이해가 절대적으로 필요합니다.
신체적 구속
Bytedance, Tsinghua University 및 Technion이 공동으로 작성한 새로운 논문은 Sora와 같은 모델이 ~ 아니다 실제로 이러한 방식으로 결정론적 물리 법칙을 내면화하지만 데이터를 확장하는 것(지난 18개월 동안 일반적인 접근 방식)은 대부분의 경우 이와 관련하여 실질적인 개선을 가져오지 못하는 것으로 보입니다.
이 논문에서는 움직이는 물체가 충돌할 때의 동작이나 경로가 방해를 받을 때와 같은 특정 물리 법칙의 추정 한계뿐만 아니라 모델의 능력도 탐구합니다. 조합 일반화 – 두 가지 서로 다른 물리적 원리의 표현이 단일 생성 출력으로 병합되는 경우.
새로운 논문의 비디오 요약입니다. 출처: https://x.com/bingyikang/status/1853635009611219019
연구진이 연구를 위해 선택한 세 가지 물리 법칙은 다음과 같습니다. 포물선 운동; 등속선운동; 그리고 완전 탄성 충돌.
위 동영상에서 볼 수 있듯이 Sora와 같은 모델은 실제로 물리적 법칙을 내면화하지 않지만 훈련 데이터를 재현하는 경향이 있음을 발견했습니다.
또한 저자는 추론 시 색상 및 모양과 같은 면이 너무 얽혀 생성된 공이 정사각형으로 바뀔 가능성이 높다는 사실을 발견했습니다. 이는 분명히 데이터 세트 예제의 유사한 모션이 공이 아닌 정사각형을 특징으로 하기 때문입니다(비디오의 예 참조). 위에 포함됨).
이 논문은 특히 약혼 소셜 미디어 연구 부문에서는 다음과 같이 결론을 내렸습니다.
‘우리의 연구에 따르면 Sora의 광범위한 성공에 대한 역할에도 불구하고 비디오 생성 모델이 기본적인 물리적 법칙을 밝히기 위해서는 크기 조정만으로는 충분하지 않습니다.
‘…[Findings] 다른 시나리오에서는 성능이 향상되지만 확장만으로는 OOD 문제를 해결할 수 없음을 나타냅니다.
‘우리의 심층 분석에 따르면 비디오 모델 일반화는 보편적인 규칙을 학습하기보다는 유사한 훈련 사례를 참조하는 데 더 의존하는 것으로 나타났습니다. 우리는 이 “케이스 기반” 동작에서 색상 > 크기 > 속도 > 모양의 우선순위 순서를 관찰했습니다.
‘[Our] 연구에 따르면 비디오 생성 모델이 기본적인 물리적 법칙을 발견하는 데 순진한 크기 조정만으로는 충분하지 않습니다.’
연구팀이 문제에 대한 해결책을 찾았는지 질문을 받은 논문의 저자 중 한 명 댓글을 달았습니다.:
‘불행하게도 우리는 그렇지 않았습니다. 사실 이것은 아마도 전체 AI 커뮤니티의 사명일 것입니다.’
방법 및 데이터
연구진은 변형 자동 인코더 (VAE) 및 그것 비디오 샘플을 생성하는 아키텍처. 이 설정에서는 압축된 잠재표상 는 DiT의 모델링과 함께 VAE 작업으로 제작되었습니다. 소음 제거 프로세스.
비디오는 Stable Diffusion V1.5-VAE를 통해 교육되었습니다. 프로세스 종료 아키텍처 개선만 포함하여 스키마는 근본적으로 변경되지 않았습니다.
‘[We retain] 공간 차원에 대한 원래의 2D 컨볼루션, 그룹 정규화 및 주의 메커니즘의 대부분입니다.
‘이 구조를 시공간 자동 인코더로 확장하기 위해 우리는 인코더의 마지막 몇 개의 2D 다운샘플 블록과 디코더의 초기 몇 개의 2D 업샘플 블록을 3D로 변환하고 여러 개의 추가 1D 레이어를 사용하여 시간적 모델링을 향상시킵니다. ‘
비디오 모델링을 활성화하기 위해 수정된 VAE는 3D용으로 강화된 SD1.5 아키텍처에 기본으로 포함된 2D GAN(Generative Adversarial Network) 구성 요소를 사용하여 HQ 이미지 및 비디오 데이터로 공동 훈련되었습니다.
사용된 이미지 데이터셋은 Stable Diffusion의 원본 소스였으며, LAION-에스테틱스필터링 포함 DataComp. 비디오 데이터의 경우 하위 집합이 다음에서 선별되었습니다. 비메오-90K, 판다-70m 그리고 HDVG 데이터 세트.
데이터는 무작위로 크기가 조정된 자르기와 무작위 수평 뒤집기를 다음과 같이 적용하여 백만 단계에 걸쳐 학습되었습니다. 데이터 증대 프로세스.
뒤집기
위에서 언급한 바와 같이, 무작위 수평 뒤집기 데이터 증대 프로세스 실제 동작을 생성하도록 설계된 시스템을 훈련하는 데 어려움이 있을 수 있습니다. 이는 훈련된 모델의 출력이 다음을 고려할 수 있기 때문입니다. 둘 다 충돌하는 데이터를 협상하려고 시도하면서 무작위 반전이 발생합니다(위에 포함된 비디오 참조).
반면에 가로로 뒤집으면 끄다모델은 다음을 준수하는 출력을 생성할 가능성이 더 높습니다. 오직 한 방향 훈련 데이터를 통해 배웠습니다.
따라서 시스템이 기본 버전과 뒤집힌 버전 모두에서 모든 이동 가능성을 실제로 동화한다는 점을 제외하면 문제에 대한 쉬운 해결책은 없습니다. 이 기능은 어린이가 쉽게 개발할 수 있지만 AI 모델의 경우 더 어려운 기능입니다. .
테스트
첫 번째 실험 세트에서 연구원들은 고전 역학의 법칙에 따라 물체의 움직임과 충돌에 대한 비디오를 생성하기 위해 2D 시뮬레이터를 공식화했습니다. 이는 실제 비디오의 모호성을 배제한 대량의 제어된 데이터 세트를 제공했습니다. 모델 평가. 그만큼 Box2D 이러한 비디오를 제작하는 데 물리 게임 엔진이 사용되었습니다.
위에 나열된 세 가지 기본 시나리오는 균일한 선형 운동, 완전 탄성 충돌, 포물선 운동 등 테스트의 초점이었습니다.
크기가 증가하는 데이터 세트(30,000개에서 300만 개에 이르는 비디오)는 다양한 크기와 복잡성(DiT-S에서 DiT-L까지)의 모델을 훈련하는 데 사용되었으며 각 비디오의 처음 3개 프레임은 조건 조정에 사용되었습니다.
연구원들은 내부 분포(ID) 결과가 데이터 양이 증가함에 따라 잘 확장되는 반면 OOD 세대는 개선되지 않아 일반화의 단점을 나타냄을 발견했습니다.
저자는 다음과 같이 언급합니다.
‘이러한 발견은 OOD 시나리오에서 추론을 수행하기 위한 확장이 불가능함을 시사합니다.’
다음으로 연구원들은 결합 일반화에 대한 숙련도를 나타내도록 설계된 시스템을 테스트하고 훈련했습니다. 여기서는 두 개의 대조되는 동작이 결합되어 각각의 개별 동작 뒤에 있는 물리적 법칙에 충실한 응집력 있는 동작을 생성합니다.
이 테스트 단계에서 저자는 다음을 사용했습니다. 파이레 시뮬레이터는 자유 낙하하는 여러 가지 다양한 모양의 물체를 묘사하고 다양하고 복잡한 상호 작용에서 서로 충돌하는 2D 환경을 생성합니다.
이 두 번째 테스트의 평가 지표는 다음과 같습니다. 프레셰 비디오 거리 (FVD); 구조적 유사성 지수 (예); 피크 신호 대 잡음비 (PSNR); 학습된 지각 유사성 측정항목 (LPIPS); 및 인간 연구(결과에서 ‘비정상’으로 표시됨).
100,000개의 비디오, 60만 개의 비디오, 3~600만 개의 비디오로 세 가지 규모의 교육 데이터 세트가 생성되었습니다. 비디오의 복잡성 증가로 인해 DiT-B 및 DiT-XL 모델이 사용되었으며 첫 번째 프레임이 컨디셔닝에 사용되었습니다.
모델은 비디오당 32프레임으로 256×256 해상도에서 백만 단계 동안 훈련되었습니다.
이 테스트의 결과는 단순히 데이터 양을 늘리는 것이 부적절한 접근 방식임을 시사합니다.
논문에는 다음과 같이 명시되어 있습니다.
‘이러한 결과는 모델 용량과 조합 공간의 적용 범위가 조합 일반화에 중요하다는 것을 시사합니다. 이러한 통찰은 비디오 생성을 위한 확장법이 단순히 데이터 볼륨을 확장하는 것이 아니라 조합 다양성을 높이는 데 초점을 맞춰야 함을 의미합니다.’
마지막으로 연구원들은 비디오 생성 모델이 물리적 법칙을 실제로 동화할 수 있는지, 아니면 추론 시 훈련 데이터를 단순히 기억하고 재현하는지 확인하기 위해 추가 테스트를 수행했습니다.
여기서 그들은 모델이 새로운 상황에 직면할 때 특정 훈련 사례를 모방하는 경향이 있는 ‘사례 기반’ 일반화의 개념을 조사했을 뿐만 아니라 균일한 움직임의 예, 특히 훈련 데이터의 움직임 방향이 훈련된 모델의 예측에 어떻게 영향을 미치는지 조사했습니다. .
훈련 데이터 세트 2개 등속운동 그리고 충돌각각은 2.5~4 단위 사이의 속도를 묘사하는 균일한 모션 비디오로 구성되었으며 처음 3개 프레임은 조건화로 사용되었습니다. 다음과 같은 잠재 가치 속도 생략되었으며, 훈련 후 보이는 시나리오와 보이지 않는 시나리오 모두에 대해 테스트가 수행되었습니다.
아래에서는 균일한 동작 생성에 대한 테스트 결과를 볼 수 있습니다.
저자는 다음과 같이 말합니다.
‘[With] 훈련 세트의 큰 간격으로 인해 모델은 초기 프레임이 중간 범위 속도를 나타낼 때 훈련 데이터와 유사하도록 속도가 높거나 낮은 비디오를 생성하는 경향이 있습니다.’
충돌 테스트에는 훨씬 더 많은 변수가 포함되며 모델은 2차원 학습이 필요합니다. 비선형 함수.
저자는 역방향 모션(예: 표면에서 튀어 나와 경로를 바꾸는 공)과 같은 ‘기만적인’ 사례가 있으면 모델을 오도하고 물리적으로 잘못된 예측을 생성할 수 있다는 점을 관찰했습니다.
결론
AI가 아닌 알고리즘(예: ‘구운’ 절차적 방법)에 다음이 포함된 경우 수학적 규칙 유체, 중력이나 압력을 받는 물체와 같은 물리적 현상의 동작에 대해 정확한 렌더링을 위해 사용할 수 있는 변하지 않는 상수 세트가 있습니다.
그러나 새로운 논문의 결과는 생성 모델을 훈련하는 동안 고전 물리 법칙에 대한 등가 관계나 본질적인 이해가 개발되지 않았으며, 데이터 양이 늘어나도 문제가 해결되지 않고 오히려 모호해진다는 점을 나타냅니다. 추론 시 시스템이 모방할 수 있는 교육 비디오가 제공됩니다.
* 저자의 인라인 인용을 하이퍼링크로 전환했습니다.
2024년 11월 26일 화요일 첫 게시
게시물 AI 세계 모델이 실제로 물리적 법칙을 이해할 수 있습니까? 처음 등장한 Unite.AI.