저는 약 5년 동안 Arxiv 및 다른 곳에서 컴퓨터 비전(CV) 및 이미지 합성 연구 현장을 지속적으로 추적해왔기 때문에 추세는 시간이 지남에 따라 분명해지며 매년 새로운 방향으로 이동합니다.
따라서 2024년이 가까워지면서 Arxiv 제출물에서 컴퓨터 비전 및 패턴 인식 분야의 새로운 특성이나 진화하는 특성을 살펴보는 것이 적절하다고 생각했습니다. 부분. 이러한 관찰은 현장을 수백 시간 동안 연구하여 얻은 정보이지만 엄밀히 말하면 일화에 불과합니다.
계속되는 동아시아의 부상
2023년 말까지 나는 ‘음성 합성’ 카테고리의 문헌 대부분이 중국과 동아시아의 다른 지역에서 나오고 있다는 것을 알아차렸습니다. 2024년 말에 이것이 이제 이미지 및 비디오 합성 연구 현장에도 적용된다는 일화를 관찰해야 합니다.
이는 중국과 인접 국가가 반드시 항상 최고의 작품을 생산한다는 의미는 아닙니다. 반대의 증거); 또한 가장 흥미롭고 강력한 새로운 개발 시스템 중 일부가 독점적이며 연구 문헌에서 제외될 가능성이 중국(서구에서와 마찬가지로)에서도 고려되지 않습니다.
그러나 이는 동아시아가 양적으로 서구를 능가하고 있음을 암시합니다. 그것이 가치 있는 것은 당신이 생존 가능성을 믿는 정도에 달려 있습니다. 에디슨 스타일의 끈기일반적으로 효과가 없는 것으로 판명됨 다루기 힘든 장애물 앞에서.
있다 이런 장애물이 많다 제너레이티브 AI에서는 기존 아키텍처를 해결하여 해결할 수 있는 것이 무엇인지, 처음부터 다시 생각해야 할 것이 무엇인지 알기가 쉽지 않습니다.
동아시아의 연구자들이 더 많은 수의 컴퓨터 비전 논문을 생산하고 있는 것 같지만, 나는 ‘프랑켄슈타인’ 스타일 프로젝트의 빈도가 증가하는 것을 발견했습니다. 즉, 이전 작품을 혼합하면서 제한된 건축적 참신함(또는 아마도 가능)을 추가하는 이니셔티브입니다. 단지 다른 유형의 데이터일 뿐임).
올해 훨씬 더 많은 수의 동아시아(주로 중국 또는 중국 관련 협력) 항목이 장점 중심이 아닌 할당량 중심으로 보였으며 이미 초과 신청된 분야에서 신호 대 잡음 비율이 크게 증가했습니다.
동시에, 2024년에는 더 많은 동아시아 신문이 나의 관심과 감탄을 불러일으켰습니다. 따라서 이것이 모두 숫자 게임이라면 실패하지는 않지만 저렴하지도 않습니다.
제출량 증가
모든 원본 국가에서 논문의 양은 2024년에 분명히 증가했습니다.
가장 인기 있는 출판일은 연중 내내 변경됩니다. 지금은 화요일인데, ‘피크’ 기간(5~8월, 10~12월, 즉 컨퍼런스 시즌)에 하루에 컴퓨터 비전 및 패턴 인식 섹션에 제출된 건수가 약 300~350건에 달하는 경우가 많습니다. 및 ‘연간 할당량 마감일’ 시즌).
내 경험 외에도 Arxiv 자체는 2024년 10월 제출 건수 기록총 6000개의 새로운 제출물이 있으며 컴퓨터 비전 섹션은 기계 학습 다음으로 두 번째로 많이 제출된 섹션입니다.
그러나 Arxiv의 기계 학습 섹션은 종종 ‘추가’ 또는 집계된 상위 카테고리로 사용되기 때문에 이는 컴퓨터 비전 및 패턴 인식이 실제로 가장 많이 제출된 Arxiv 카테고리임을 주장합니다.
Arxiv의 자신의 통계 확실히 컴퓨터 과학이 제출물에서 확실한 선두주자로 묘사됩니다.
스탠포드 대학의 2024 AI 인덱스는 아직 최신 통계를 보고할 수는 없지만 최근 몇 년 동안 머신러닝에 관한 학술 논문 제출이 눈에 띄게 증가했다는 점을 강조합니다.
확산>메시 프레임워크 확산
나에게 나타난 또 다른 분명한 추세는 레버리지를 다루는 논문의 큰 상승세였습니다. 잠재 확산 모델 (LDM) 발전기 메쉬 기반의 ‘전통적인’ CGI 모델입니다.
이러한 유형의 프로젝트에는 Tencent의 프로젝트가 포함됩니다. 인스턴트메시3D, 3D토피아, 확산2, V3D, MV편집그리고 김디퓨전유사한 제품이 많이 있습니다.
이 새로운 연구 방향은 확산 모델과 같은 생성 시스템의 지속적인 난치성에 대한 암묵적인 양보로 간주될 수 있습니다. 확산 모델은 현재 확산>메시 모델이 채우려고 하는 모든 시스템에 대한 잠재적인 대체물로 선전되었습니다. 30년 이상 전으로 거슬러 올라가는 기술 및 워크플로에서 도구의 역할로 확산을 축소합니다.
오픈소스의 창시자인 Stability.ai 안정적인 확산 모델, 방금 출시됐어요 스테이블 제로123무엇보다도 다음을 사용할 수 있습니다. 신경 복사장 (NeRF) AI 생성 이미지를 Unity와 같은 CGI 분야, 비디오 게임, 증강 현실 및 명시적인 3D가 필요한 기타 플랫폼에서 사용할 수 있는 명시적인 메시 기반 CGI 모델을 생성하기 위한 다리로 해석 암시적(숨겨진) 좌표와 반대되는 좌표 연속 기능.
재생하려면 클릭하세요. Stable Diffusion에서 생성된 이미지는 합리적인 CGI 메시로 변환될 수 있습니다. 여기에서는 Stable Zero 123을 사용한 이미지>CGI 워크플로우의 결과를 볼 수 있습니다. 출처: https://www.youtube.com/watch?v=RxsssDD48Xc
3D 의미론
생성 AI 공간은 비전과 생성 시스템의 2D 및 3D 시스템 구현을 구분합니다. 예를 들어, 얼굴 랜드마크 프레임워크그렇지만 대표하는 모든 경우에 3D 개체(얼굴)가 모두 주소 지정 가능한 3D 좌표를 계산하는 것은 아닙니다.
인기있는 FANAAlign 시스템2017년 딥페이크 아키텍처에서 널리 사용되는 는 다음 두 가지 접근 방식을 모두 수용할 수 있습니다.
그래서 ‘딥페이크’가 된 것처럼 모호하고 납치된 용어‘3D’ 역시 컴퓨터 비전 연구에서 혼란스러운 용어가 되었습니다.
소비자에게 이는 일반적으로 스테레오 지원 미디어(예: 시청자가 특수 안경을 착용해야 하는 영화)를 의미합니다. 시각 효과 실무자 및 모델러를 위해 이는 2D 아트워크(예: 개념적 스케치)와 Maya 또는 Cinema4D와 같은 ‘3D 프로그램’에서 조작할 수 있는 메시 기반 모델 간의 차이를 제공합니다.
그러나 컴퓨터 비전에서는 단순히 다음을 의미합니다. 직교 좌표계 어딘가에 존재한다 잠재 공간 모델의 – ~ 아니다 사용자가 반드시 다루거나 직접 조작할 수 있습니다. 적어도 다음과 같은 제3자의 해석적 CGI 기반 시스템 없이는 불가능합니다. 3DMM 또는 불꽃.
그러므로 개념은 확산>3D 정확하지 않습니다. 할 수 있을 뿐만 아니라 어느 유형의 이미지(실제 사진 포함)는 생성적 CGI 모델을 생성하기 위한 입력으로 사용되지만 덜 모호한 용어인 ‘메시’가 더 적합합니다.
그러나 모호함을 더욱 악화시키기 위해 확산이 발생합니다. ~이다 대부분의 신흥 프로젝트에서는 원본 사진을 메시로 해석하는 데 필요합니다. 따라서 더 나은 설명은 다음과 같습니다. 이미지-메시하는 동안 이미지>확산>메쉬 훨씬 더 정확한 설명입니다.
그러나 이는 이사회나 투자자 참여를 위한 홍보 자료에서는 어려운 일입니다.
건축 교착 상태의 증거
2023년과 비교해도 지난 12개월 동안의 논문은 엄격한 실제적 한계 확산 기반 생성에 대해.
주요 걸림돌은 서술적으로나 시간적으로 일관된 비디오를 생성하고 다양한 비디오 클립뿐만 아니라 생성된 단일 비디오 클립의 짧은 실행 시간에서도 캐릭터와 개체의 일관된 모양을 유지하는 것입니다.
확산 기반 합성의 마지막 획기적인 혁신은 LoRA의 출현 Flux와 같은 최신 시스템은 이전에 Stable Diffusion이 생성된 이미지 내에서 텍스트 콘텐츠를 재현할 수 없었던 것과 같은 일부 이상치 문제를 개선하고 전반적인 이미지 품질이 향상되었지만 2024년에 제가 연구한 대부분의 논문은 본질적으로 접시 위에서 음식을 옮기는 것뿐입니다.
이러한 교착상태는 이전에도 GAN(Generative Adversarial Networks) 및 NeRF(Neural Radiance Fields)에서 발생했는데, 두 가지 모두 초기 잠재력을 제대로 발휘하지 못했고 두 가지 모두 기존 시스템(예: Stable Zero 123에서 NeRF 사용, 위 참조). 이는 확산 모델에서도 발생하는 것으로 보입니다.
가우스 스플래팅 연구 피벗
래스터화 방식은 2023년 말쯤인 것 같았습니다. 3D 가우스 스플래팅 1990년대 초 의료영상 기술로 데뷔한 (3DGS)는 갑자기 추월을 당했다. 자동 인코더 기반 인간 이미지 합성 과제(예: 얼굴 시뮬레이션 및 재현, 신원 전달) 시스템.
2023년 ASH 논문은 약속했습니다 전신 3DGS 인간하는 동안 가우스 아바타 인상적인 교차 재현과 함께 (자동 인코더 및 기타 경쟁 방법에 비해) 대폭 향상된 세부 정보를 제공했습니다.
그러나 올해는 3DGS 인간 합성의 획기적인 순간이 상대적으로 짧았습니다. 문제를 다룬 대부분의 논문은 위의 연구에서 파생되었거나 그 능력을 초과하지 못했습니다.
대신 3DGS는 근본적인 건축적 타당성을 향상시키는 데 중점을 두어 향상된 3DGS 외부 환경을 제공하는 논문이 쏟아지고 있습니다. 특별한 관심 동시 현지화 및 매핑(Simultaneous Localization and Mapping)에 지급되었습니다(쾅) 다음과 같은 프로젝트에서 3DGS 접근 방식 가우스 스플래팅 SLAM, 스플랫-SLAM, 가우시아 n-SLAM, DROID-스플랫다른 많은 것 중에서.
스플랫 기반 인간 합성을 지속하거나 확장하려는 프로젝트에는 다음이 포함됩니다. 미그, 보석, 에바, OccFusion, 기다리다, 휴먼스플랫, GG헤드, HGM그리고 Topo4D. 그 외에도 다른 것들이 있지만, 이러한 소풍 중 어느 것도 2023년 말에 등장한 논문의 초기 영향과 일치하지 않았습니다.
테스트 샘플의 ‘와인슈타인 시대’는 (천천히) 감소하고 있습니다
일반적으로 동남아시아(특히 중국)의 연구에는 약간 ‘매운’ 자료가 포함되어 있기 때문에 리뷰 기사에 다시 게시하기 어려운 테스트 사례가 자주 포함됩니다.
이것이 세계의 해당 지역의 연구 과학자들이 그들의 결과물에 대한 관심을 끌려고 하기 때문인지 여부는 논쟁의 여지가 있습니다. 그러나 지난 18개월 동안 생성 AI(이미지 및/또는 비디오)에 관한 점점 더 많은 논문이 기본적으로 젊고 옷이 부족한 여성과 소녀를 프로젝트 사례에 사용했습니다. 이에 대한 경계선 NSFW 예는 다음과 같습니다. 유니애니메이트, 제어다음심지어는 매우 ‘건조한’ 용지도 포함합니다. Fréchet 비디오 모션 거리를 통한 모션 일관성 평가 (FVMD).
이는 규칙 34가 매우 많은 증거로 남아 있는 LDM(잠재 확산 모델)을 중심으로 모인 하위 레딧 및 기타 커뮤니티의 일반적인 추세를 따릅니다.
연예인 페이스오프
이러한 유형의 부적절한 사례는 AI 프로세스가 유명인의 유사성을 임의로 활용해서는 안 된다는 인식이 높아지는 것과 겹칩니다. 특히 사례를 무비판적으로 사용하는 연구에서는 더욱 그렇습니다. 특징 매력적인 유명인(종종 여성)을 의심스러운 맥락에 배치합니다.
한 가지 예는 다음과 같습니다 애니드레싱아주 어린 애니메이션 스타일의 여성 캐릭터가 등장하는 것 외에도 마릴린 먼로와 같은 고전 유명인과 앤 해서웨이(이런 종류의 사용을 비난한 앤 해서웨이)와 같은 현재 유명인의 정체성을 자유롭게 사용합니다. 꽤 목소리로).
~ 안에 서부 사람 논문에 따르면, 이 특정 관행은 FAANG 및 OpenAI와 같은 기타 고급 연구 기관의 대규모 릴리스로 인해 2024년 내내 눈에 띄게 감소했습니다. 향후 소송의 가능성을 비판적으로 인식하고 있는 이들 주요 기업 관계자들은 소송에 대한 변호를 점점 더 꺼리는 것 같습니다. 꾸며낸 사실적인 사람들.
그들이 만들고 있는 시스템(예: 영상 그리고 베오2)는 분명히 그러한 출력을 할 수 있으며, 서구의 생성 AI 프로젝트의 예는 이제 ‘귀엽고’ 디즈니화되었으며 극도로 ‘안전한’ 이미지와 비디오를 지향하는 추세입니다.
세수
서양 이력서 문헌에서 이러한 부정직한 접근 방식은 특히 다음에 대한 증거로 나타납니다. 맞춤화 시스템 – 여러 사례(예: LoRA 및 이전 모델)에서 특정 사람의 일관된 유사성을 생성할 수 있는 방법 드림부스).
예를 들면 다음과 같습니다 직교 시각적 임베딩, LoRA-작곡가구글의 지시부스그리고 더 많은 것.
그러나 ‘귀여운 예’의 증가는 다음과 같은 프로젝트에서 다른 CV 및 종합 연구 분야에서 볼 수 있습니다. Comp4D, V3D, 디자인편집, UniEdit, 페이스체인 (이는 이에 대한 보다 현실적인 사용자 기대를 인정합니다. GitHub 페이지), 그리고 DPG-T2I다른 많은 것 중에서.
그러한 시스템(예: LoRA)은 상대적으로 적당한 하드웨어를 사용하는 가정 사용자가 만들 수 있으므로 무료로 다운로드할 수 있는 유명 모델이 폭발적으로 증가했습니다. civit.ai 도메인에서 그리고 커뮤니티. 이러한 불법 사용은 다음과 같은 아키텍처의 오픈 소스를 통해 여전히 가능합니다. 안정적인 확산 그리고 유량.
플랫폼의 사용 약관에 의해 금지된 자료를 생성하기 위해 생성적 텍스트-이미지(T2I) 및 텍스트-비디오(T2V) 시스템의 안전 기능을 뚫는 것이 종종 가능하지만, 최고의 시스템(예: RunwayML 및 Sora)과 단지 성능만 뛰어난 시스템(예: 안정적인 영상확산, 코그비디오 로컬 배포 훈위안), 많은 사람들이 믿는 것처럼 실제로 닫히지는 않습니다.
오히려 이러한 독점 시스템과 오픈 소스 시스템은 각각 똑같이 쓸모 없게 될 위험이 있습니다. 고가의 하이퍼스케일 T2V 시스템은 소송에 대한 두려움으로 인해 과도하게 방해를 받을 수 있으며, 오픈 소스 시스템의 라이센스 인프라 및 데이터 세트 감독이 부족하여 시스템이 완전히 잠길 수 있습니다. 더욱 엄격한 규제가 적용되면서 시장에서 퇴출되었습니다.
2024년 12월 24일 화요일 첫 게시
게시물 2024년 컴퓨터 비전 문헌 동향에 대한 개인적인 견해 처음 등장한 Unite.AI.