LVLMS (Large Vision-Language Models)는 컴퓨터 비전 문헌에서보다 비전하거나 도전적인 제출을 해석하는 데 유용한 보좌관이 될 수 있지만, 햄릿이있는 곳은 하나입니다. 비디오 예 새로운 논문과 함께*.
과학 논문은 종종 매력적인 텍스트 나 시각을 통해 흥분을 생성하는 것을 목표로하기 때문에 이것은 제출의 중요한 측면입니다.
그러나 비디오 합성과 관련된 프로젝트의 경우, 저자는 실제 비디오 출력 또는 작업을 해소 할 위험을 보여 주어야합니다. 그리고이 시연에서는 대담한 주장과 실제 성과 사이의 격차가 가장 자주 분명해진다.
나는 책을 읽고 영화를 보지 못했습니다
현재 대부분의 인기있는 API 기반 대형 언어 모델 (LLMS) 및 LVLM (Largin Vision-Language Models)은 비디오 컨텐츠를 직접 분석하는 데 관여하지 않습니다. 어떤 식 으로든질적 또는 기타. 대신, 그들은 관련 성적 증명서 만 분석 할 수 있습니다. 텍스트-기반 보조 재료.

GPT-4O, Google Gemini 및 Perplexity의 다양한 반대 의견은 성적표 나 다른 텍스트 기반 소스에 의존하지 않고 비디오를 직접 분석하도록 요청했을 때.
그러나 LLM은 비디오를 불러내는 것이 아니라면 실제로 비디오를 볼 수 없다는 것을 숨기거나 거부 할 수 있습니다.

ChatGpt-4o는 새로운 연구 논문의 관련 비디오에 대한 주관적인 평가를 제공하고 실제 의견을 제시 한 후 실제로 비디오를 직접 볼 수 없다고 고백합니다.
chatgpt-4o와 같은 모델은 멀티 모달이지만 적어도 분석 할 수 있습니다. 개인 사진 (예 : 비디오에서 추출 된 프레임, 위의 이미지 참조)과 같은 몇 가지 문제가 있습니다. 첫째, LLM이기 때문에 LLM의 질적 의견에 대한 신뢰를 줄 수있는 기초가 있습니다. 경향이 있습니다 성실한 담론보다는 ‘사람들을 기쁘게하는 것’.
둘째, 많은 사람들이 생성 된 대부분의 비디오 문제가 아니라면 a 일시적인 측면 그것은 프레임 횡령에서 완전히 손실되므로 개별 프레임을 검사하는 것은 목적이 없습니다.
마지막으로, LLM은 예를 들어 Deepfake 이미지 또는 예술 기록과 관련하여 텍스트 기반 지식을 흡수 한 것에 기반한 ‘가치 판단’을 기반으로 할 수 있습니다 (다시 한 번). 이러한 경우 훈련 된 도메인 지식은 LLM이 이미지의 분석 된 시각적 특성을 인간 통찰력:

가짜 VLM 프로젝트는 특수 다중 모달 비전 언어 모델을 통해 대상 깊은 딥 파이크 탐지를 제공합니다. 출처 : https://arxiv.org/pdf/2503.14905
LLM이 비디오에서 직접 정보를 얻을 수 없다고 말하는 것은 아닙니다. 예를 들어, AI 시스템을 사용하여 YoloLLM은 비디오에서 객체를 식별하거나 직접 훈련을받을 수 있습니다. 평균 이상 복합 기능의.
그러나 LLM이 비디오를 주관적으로 평가할 수있는 유일한 방법 (즉, ‘나에게 진짜 보이지 않는다’)는 a를 적용하는 것입니다 손실 기능-인간의 의견을 잘 반영하는 것으로 알려진 기반 메트릭이거나 그렇지 않으면 인간의 의견에 직접 정보를 제공합니다.
손실 함수는 정답에서 모델의 예측이 얼마나 멀리 떨어져 있는지를 측정하기 위해 훈련 중에 사용되는 수학적 도구입니다. 그들은 모델의 학습을 안내하는 피드백을 제공합니다. 오류가 클수록 높을수록 손실. 교육이 진행됨에 따라 모델은이 손실을 줄이기 위해 매개 변수를 조정하여 점차 정확한 예측 능력을 향상시킵니다.
손실 기능은 모델의 훈련을 조절하고 AI 모델의 출력을 평가하도록 설계된 알고리즘 (예 : 생성 비디오 모델에서 시뮬레이션 된 사진 컨텐츠의 평가)을 교정하는 데 사용됩니다.
조건부 비전
가장 인기있는 메트릭/손실 기능 중 하나는입니다 Fréchet Inception 거리 (FID)는 분포 사이의 유사성을 측정하여 생성 된 이미지의 품질을 평가합니다 (여기서는 의미 ‘시각적 특징으로 이미지가 퍼지거나 그룹화되는 방법 ‘)) 그리고 실제 이미지의 것.
구체적으로, FID는 수단을 사용하여 통계적 차이를 계산합니다 공분산,종종 비판을 받았습니다)) Inception v3 분류 네트워크. 낮은 FID 점수는 생성 된 이미지가 실제 이미지와 더 유사하여 시각적 품질과 다양성이 향상됨을 나타냅니다.
그러나 FID는 본질적으로 비교적이며, 논란의 여지가있는 것은 본질적으로 자기 참조 적입니다. 이것을 해결하기 위해 나중에 조건부 프레첸 거리 (CFD, 2021) 접근 방식은 생성 된 이미지를 실제 이미지와 비교하여 FID와 다릅니다. 추가 조건(필연적으로 주관적인) 클래스 레이블 또는 입력 이미지와 같은.
이런 식으로 CFID는 이미지가 자신의 전반적인 현실주의 나 다양성뿐만 아니라 의도 된 조건을 정확하게 충족시키는 방법을 설명합니다.

2021 CFD Outing의 예. 에스ource : https://github.com/michael-soloveitchik/cfid/
CFD는 최근의 질적 인간 해석을 손실 기능과 메트릭 알고리즘으로 베이킹하는 경향을 따릅니다. 이러한 인간 중심의 접근 방식은 결과 알고리즘이 ‘영혼이없는’것이 아니거나 단지 기계적이지 않다고 보장하지만, 동시에 여러 가지 문제를 제시합니다. 편견의 가능성; 새로운 관행에 따라 알고리즘을 업데이트 해야하는 부담과 이것이 프로젝트에서 일정 기간 동안 일관된 비교 표준의 가능성을 제거 할 것이라는 사실; 예산 제한 (인간 기고자가 적은 사람이 결정을보다 단호하게 만들 것이지만 더 많은 수치는 비용으로 인해 유용한 업데이트를 방지 할 수 있습니다).
CFRED
이것은 우리를 a로 데려옵니다 새로운 종이 분명히 제공하는 미국에서 조건부 프레첸 거리 (CFRED), 시각적 품질과 텍스트 이미지 정렬을 평가하여 인간 선호도를 더 잘 반영하도록 설계된 CFD에 대한 소설

새 논문의 부분 결과 : “소파가있는 거실과 소파에 놓인 노트북 컴퓨터”에 대한 다른 메트릭에 의한 이미지 순위 (1-9). Green은 인간 등급의 최고 모델 (Flux.1-Dev), Purple the Lower (SDV1.5)를 강조합니다. CFRED만이 인간의 순위와 일치합니다. 전체 결과는 소스 용지를 참조하십시오. 여기서는 여기에 재현 할 공간이 없습니다. 출처 : https://arxiv.org/pdf/2503.21721
저자는 시작 점수 (IS)와 FID, 이미지가 프롬프트와 일치하는 방식을 고려하지 않고 이미지 품질 만 측정하기 때문에 인간의 판단에 잘 불가지 않습니다.
예를 들어, 두 개의 이미지가있는 데이터 세트를 고려하십시오. 개 중 하나와 고양이 중 하나이며 각각은 해당 프롬프트와 쌍을 이룹니다. 이 매핑을 실수로 바꾸는 완벽한 텍스트-이미지 모델 (즉, 개 프롬프트를위한 고양이를 생성하고 그 반대도 마찬가지)은 의도 된 프롬프트와의 오정렬에도 불구하고 고양이와 개의 전반적인 분포가 유지되기 때문에 거의 제로 FID를 달성 할 수 있습니다.
‘우리는 CFRED가 입력 텍스트에 대한 더 나은 이미지 품질 평가 및 컨디셔닝을 포착하여 인간 선호도와의 상관 관계를 향상 시킨다는 것을 보여줍니다.’

이 논문의 테스트에 따르면 저자의 제안 된 지표 인 CFRED는 3 개의 벤치 마크 데이터 세트 (Partiprompts, HPDV2 및 Coco)에서 FID, FDDINOV2, Clipscore 및 CMMD보다 인간 선호도와 일관되게 더 높은 상관 관계를 얻는다는 것을 나타냅니다.
개념과 방법
저자는 텍스트-이미지 모델을 평가하기위한 현재의 금 표준은 대형 언어 모델에 사용되는 방법과 유사한 크라우드 소스 비교를 통해 인간 선호도 데이터를 수집하는 것이 포함된다고 지적합니다. LMSYS 경기장).
예를 들어, 파티 프롬프트 아레나 1,600 개의 영어 프롬프트를 사용하여 참가자에게 다른 모델의 이미지 쌍을 제시하고 선호하는 이미지를 선택하도록 요청합니다.
마찬가지로 텍스트-이미지 아레나 리더 보드 ELO 점수를 통해 순위를 생성하기 위해 모델 출력의 사용자 비교를 사용합니다. 그러나 이러한 유형의 인간 평가 데이터를 수집하는 것은 비용이 많이 들고 느리기 때문에 Partiprompts Arena와 같은 일부 플랫폼이 모두 업데이트를 중단합니다.

인공 분석 이미지 Arena Leaderboard. 출처 : https://artificialanalysis.ai/text-to-image/arena?tab=leaderboard
역사적 인간 선호도 데이터에 대해 훈련 된 대체 방법이 존재하지만, 인간 선호도가 지속적으로 발전하기 때문에 미래 모델을 평가하는 효과는 불확실한 상태로 남아 있습니다. 결과적으로 FID,와 같은 자동 지표 클립 코어그리고 저자의 제안 된 CFRED는 중요한 평가 도구로 남아있는 것으로 보입니다.
저자는 프롬프트에 조절 된 실제 이미지와 생성 된 이미지를 모두 다음과 같이 가정합니다. 가우스 분포각각 조건부 수단과 공분산으로 정의됩니다. CFRED는 프롬프트에서 예상되는 프레첸 거리를 측정합니다 이러한 조건부 분포 사이. 이는 조건부 통계 측면에서 직접 또는 무조건 통계를 프롬프트와 관련된 교차 공분산과 결합하여 공식화 할 수 있습니다.
이러한 방식으로 프롬프트를 통합함으로써 CFRED는 이미지의 사실주의와 주어진 텍스트와의 일관성을 모두 평가할 수 있습니다.
데이터 및 테스트
CFRED가 인간 선호도와 얼마나 잘 상관 관계가 있는지 평가하기 위해 저자는 여러 모델의 이미지 순위를 사용하여 동일한 텍스트로 프롬프트했습니다. 그들의 평가는 두 가지 출처를 이끌어 냈습니다 인간 선호도 점수 v2 (HPDV2) 9 개의 생성 이미지와 1 개를 포함하는 테스트 세트 머리 프롬프트 당 지상 진실 이미지; 그리고 1,600 개의 프롬프트에 걸쳐 4 개의 모델의 출력이 포함 된 앞서 언급 한 Partiprompts Arena.
저자는 산란 된 경기장 데이터 포인트를 단일 데이터 세트로 수집했습니다. 실제 이미지가 인간 평가에서 가장 높은 순위를 차지하지 않은 경우, 최고 등급의 이미지를 참조로 사용했습니다.
새로운 모델을 테스트하기 위해 Coco ‘s Train과[194에서1000개의프롬프트를샘플링했습니다59035]검증 세트, HPDV2와 겹치지 않고 Arena Leaderboard에서 9 개의 모델을 사용하여 이미지를 생성했습니다. 원래의 코코 이미지는 평가 의이 부분에서 참조로 사용되었습니다.
CFRED 접근법은 4 가지 통계 메트릭을 통해 평가되었습니다 : FID; fddinov2; 클립 코어; 그리고 CMMD. 또한 인적 선호도 데이터에 대해 훈련 된 4 개의 학습 된 메트릭에 대해 평가되었습니다. 미적 점수; Imageerward; HPSV2; 그리고 MPS.
저자는 순위 및 점수 관점에서 인간의 판단과의 상관 관계를 평가했습니다. 각 메트릭에 대해 이미지 임베드 및 이미지 임베딩 및 OpenClip 텍스트 임베딩에 대한 Conbnext-B 텍스트 인코더 †.
인적 선호도 학습에 대한 이전의 작업은 원인 별 순위 정확도를 사용하여 성능을 측정했으며, 이는 결과를 평균화하기 전에 각 이미지 텍스트 쌍의 순위 정확도를 계산합니다.
저자는 대신 a를 사용하여 CFRED를 평가했습니다 글로벌 전체 데이터 세트에서 전체 순위 성능을 평가하는 순위 정확도; 통계 메트릭의 경우, 이들은 순위에서 직접 순위를 매료시켰다. 그리고 인간 선호도에 대해 훈련 된 메트릭의 경우 먼저 모든 샘플에서 각 모델에 할당 된 순위를 평균 한 다음이 평균에서 최종 순위를 결정했습니다.
초기 테스트에는 10 개의 프레임 워크가 사용되었습니다. 활주; 머리; 퓨즈 리림; 2부터; vqgan+클립; cogview2; 안정적인 확산 v1.4; VQ 분해; 안정적인 확산 v2.0; 그리고 라파이트.

통계 메트릭 (FID, FDDINOV2, CLIPSCORE, CMMD 및 CFRED) 및 인간 선호도 훈련 메트릭 (미학적 점수, Imageerward, HPSV2 및 MP)을 사용하여 HPDV2 테스트 세트의 모델 순위 및 점수. 최상의 결과는 굵게 표시되며 두 번째 최고는 밑줄이 표시됩니다.
초기 결과 중 저자는 다음과 같습니다.
‘CFRED는 인간 선호도와 가장 높은 정렬을 달성하여 0.97의 상관 관계에 도달합니다. 통계 메트릭 중 CFRED는 가장 높은 상관 관계를 얻으며 인간 선호도에 대해 명시 적으로 훈련 된 모델 인 HPSV2 (0.94)와 비교할 수 있습니다. HPSV2가 테스트 세트의 4 가지 모델을 포함하고 동일한 주석기를 사용하는 HPSV2 훈련 세트에 대해 훈련을 받았을 때, 동일한 설정의 특정 인간 선호 바이어스를 본질적으로 인코딩합니다.
대조적으로, CFRED는 인간 선호도 훈련없이 인간 평가와 비슷하거나 우수한 상관 관계를 달성합니다.
‘이러한 결과는 CFRED가 표준 자동 지표 및 지표에 비해 다양한 모델에서보다 신뢰할 수있는 순위를 제공하며 인적 선호도 데이터에 대해 명시 적으로 교육을 받았음을 보여줍니다.’
평가 된 모든 메트릭 중에서 CFRED는 가장 높은 순위 정확도 (91.1%)를 달성했으며, 저자가 주장하는 – 인간의 판단과의 강력한 조정을 보여줍니다.
HPSV2는 88.9%, FID 및 FDDINOV2는 86.7%의 경쟁 점수를 얻었습니다. 인적 선호도 데이터에 대한 훈련을받은 지표는 일반적으로 인간 평가와 잘 어울 렸지만 CFRED는 전체적으로 가장 강력하고 신뢰할 수있는 것으로 판명되었습니다.
아래에서는 두 번째 테스트 라운드의 결과를 볼 수 있습니다. SDXL; 칸딘스키 2; 소시지; 그리고 칼 V1.0.

통계 메트릭 (FID, FDDINOV2, CLIPSCORE, CMMD 및 CFRED) 및 인적 선호도 훈련 메트릭 (미학 점수, Imagereward 및 MP)을 사용하여 Partiprompt의 모델 순위 및 점수. 최상의 결과는 대담하고, 두 번째 최고는 밑줄이 그어져 있습니다.
여기서 논문은 다음과 같습니다.
‘통계적 지표 중에서 CFRED는 인간 평가 (0.73)와 가장 높은 상관 관계를 달성하며 FID 및 FDDINOV2는 모두 0.70의 상관 관계에 도달합니다. 대조적으로, 클립 점수는 인간의 판단과 매우 낮은 상관 관계 (0.12)를 보여줍니다.
‘인간 선호도 훈련 카테고리에서 HPSV2는 가장 높은 정렬을 가지고 있으며, 가장 높은 상관 관계 (0.83), Imageerward (0.81) 및 MP (0.65)를 달성합니다. 이러한 결과는 CFRED가 강력한 자동 지표이지만 HPSV2는 Partiprompts 경기장에서 인간 평가 트렌드를 포착하는 데 가장 효과적인 것으로 두드러집니다. ‘
마지막으로 저자는 9 개의 최신 텍스트-이미지 모델을 사용하여 Coco 데이터 세트에 대한 평가를 수행했습니다. 플럭스 1[dev]; Playgroundv2.5; 야누스 프로; 및 안정적인 확산 변이체 SDV3.5-L 터보, 3.5-L, 3-M, SDXL, 2.1 및 1.5.
인적 선호 순위는 텍스트-이미지 리더 보드에서 공급되었으며 ELO 점수로 제공되었습니다.

자동 메트릭 (FID, FDDINOV2, CLIPSCORE, CMMD 및 CFRED) 및 인간 선호도 훈련 메트릭 (미학 점수, Imagereward, HPSV2 및 MP)을 사용하여 무작위로 샘플링 된 Coco 프롬프트에 대한 모델 순위. 0.5 미만의 순위 정확도는 일치하는 쌍보다 불일치를 나타내며, 최상의 결과는 굵게 표시되고 두 번째 최고는 밑줄이 그어져 있습니다.
이 라운드와 관련하여 연구원들은 다음과 같이 말합니다.
‘통계적 지표 (FID, FDDINOV2, CLIP, CMMD 및 제안 된 CFRED) 중 CFRED만이 인간 선호도와 강한 상관 관계를 나타내며 0.33의 상관 관계와 66.67%의 비 사소 순위 정확도를 달성합니다. ‘이 결과는 CFRED를 전체적으로 세 번째로 정렬 된 메트릭으로, 인간의 선호도 – 훈련 된 메트릭 Imagereward, HPSV2 및 MP에 의해서만 능가합니다.
‘특히, 다른 모든 통계 지표는 ELO 순위와 상당히 약한 정렬을 보여 주며 결과적으로 순위를 역전시켜 순위 ACC를 초래했습니다. 0.5 미만.
‘이러한 결과는 CFRED가 시각적 충실도와 신속한 일관성에 민감하여 텍스트-이미지 생성을 벤치마킹하기위한 실용적이고 훈련없는 대안으로 가치를 강화한다는 것을 강조합니다.’
저자는 또한 Backbone으로서 V3를 테스트하여 문헌에서의 편재성에주의를 기울였으며, InceptionV3은 합리적으로 수행되었지만 DINOV2-L/14 및 VIT-L/16과 같은 변압기 기반의 백본에 의해 유출 된 것으로 나타 났으며, 이는 인간 순위와 일관되게 정렬되어 있으며, 이는 현대의 평가 설정에서 InceptionV3를 대체하는 지원을 주장합니다.

각 이미지 백본의 순위가 Coco 데이터 세트의 진정한 인간 유래 순위와 얼마나 자주 일치하는지를 보여주는 승리 요율.
결론
인간의 루프 솔루션은 메트릭 및 손실 기능의 개발에 대한 최적의 접근 방식이지만, 그러한 체계에 필요한 업데이트의 규모와 빈도는 계속해서 비현실적으로 만들어 질 것입니다. 또는 그대로 보안관의 경우였습니다시행.
저자의 새로운 시스템의 신뢰성은 여전히 인간의 판단과의 조정에 달려 있지만, 최근의 많은 인간이 부여하는 접근법보다 더 많은 것을 제거하지만; 따라서 CFRED의 정당성은 여전히 인적 선호도 데이터에 남아 있습니다 (분명히 벤치 마크가 없으면 CFRED가 인간과 같은 평가를 반영한다는 주장은 예측할 수 없을 것입니다).
틀림없이, 생성 출력에서 ’현실주의’에 대한 우리의 현재 기준을 미터법 함수로 인한 것은 장기적으로 실수가 될 수 있습니다.이 개념에 대한 우리의 정의는 현재 생성 된 AI 시스템의 새로운 물결에서 폭행되어 빈번하고 중요한 개정을 설정하기 때문입니다.
* 이 시점에서 나는 일반적으로 최근의 학문적 제출에서 모범적 인 예시적인 비디오 예를 포함 할 것이다. 그러나 그것은 의미가있을 것입니다. Arxiv의 생성 AI 출력을 트롤링하는 10-15 분 이상을 트롤링 한 사람은 이미 주관적으로 열악한 품질의 보충 비디오를 발견했을 것입니다.
† 실험에 총 46 개의 이미지 백본 모델이 사용되었으며, 모든 것이 그래프 결과에서 고려되는 것은 아닙니다. 전체 목록은 논문의 부록을 참조하십시오. 테이블과 그림에 등장한 것들이 나열되었습니다.
2025 년 4 월 1 일 화요일에 처음 출판되었습니다
게시물 더 나은 비디오 비평을 제공하도록 AI를 가르치십시오 먼저 나타났습니다 Unite.ai.