이미지 현실주의를 평가하기 위해 AI 환각을 사용합니다

Date:

Whoops에서 선택한 이미지! DataSet (https://huggingface.co/datasets/nlphuji/whoops), 논문의 중앙 이미지 뒤에서 '환각과 싸우지 말고, 사용하십시오 : Atomic Facts에서 NLI를 사용하여 이미지 현실주의를 추정'(https://arxiv.org/2503.15948).

러시아의 새로운 연구는 비현실적인 AI 생성 이미지를 감지하는 비 전통적인 방법을 제안합니다. 대형 시력 모델 (LVLM)의 정확성을 향상시키는 것이 아니라 의도적으로 그들의 의도적으로 그들의 활용함으로써 환각 경향.

새로운 접근 방식은 LVLM을 사용한 이미지에 대해 다수의 ‘원자 사실’을 추출한 다음 적용됩니다. 자연어 추론 (NLI) 이러한 진술들 사이의 모순을 체계적으로 측정하려면 모델의 결함을 상식을 무시하는 이미지를 감지하기위한 진단 도구로 효과적으로 전환합니다.

Whoops의 두 이미지! LVLM 모델에 의해 자동으로 생성 된 진술과 함께 데이터 세트. 왼쪽 이미지는 현실적이며 일관된 설명으로 이어지는 반면, 비정상적인 오른쪽 이미지는 모델이 환각을 유발하여 모순 또는 잘못된 진술을 생성합니다. 출처 : https://arxiv.org/pdf/2503.15948

Whoops의 두 이미지! LVLM 모델에 의해 자동으로 생성 된 진술과 함께 데이터 세트. 왼쪽 이미지는 현실적이며 일관된 설명으로 이어지는 반면, 비정상적인 오른쪽 이미지는 모델이 환각을 유발하여 모순 또는 잘못된 진술을 생성합니다. 출처 : https://arxiv.org/pdf/2503.15948

LVLM은 두 번째 이미지의 현실주의를 평가하도록 요청했습니다. 무엇 묘사 된 낙타에는 3 개의 혹이 있기 때문에 자연에서 알려지지 않았습니다.

그러나 LVLM은 처음에 충돌합니다 > 2 혹 ~와 함께 > 2 마리이것이 하나의 ‘낙타 그림’에서 세 개의 혹을 볼 수있는 유일한 방법이기 때문에. 그런 다음 3 개의 혹 (즉, ‘두 머리’)보다 훨씬 더 많은 것을 환각시키고 의심을 불러 일으킨 것으로 보이는 바로 그 일을 자세히 설명하지 않습니다.

새로운 연구의 연구원들은 LVLM 모델이 이런 종류의 평가를 기본적으로 수행 할 수 있으며, 그랬던 모델과 동등한 (또는 더 나은) 모델을 수행 할 수 있음을 발견했습니다. 미세 조정 이런 종류의 작업을 위해. 미세 조정은 다운 스트림 적용 가능성 측면에서 복잡하고 비싸며 오히려 부서지기 때문에 가장 큰 장애물 현재의 AI 혁명에서 문헌의 일반적인 경향에 대한 상쾌한 비틀기입니다.

공개 평가

저자는 접근 방식의 중요성은 오픈 소스 프레임 워크. Chatgpt와 같은 고급 투자자 모델은이 작업에서 더 나은 결과를 제공 할 수 있지만, 우리 대부분 (특히 애호가 및 VFX 커뮤니티에 대한 논쟁의 여지가있는 실제 가치)는 지역 구현에 새로운 획기적인 발전을 통합하고 개발할 가능성이 있습니다. 반대로 독점적 인 상업용 API 시스템으로 향하는 모든 것은 사용자의 요구와 책임보다 회사의 기업 문제를 반영 할 가능성이 높은 인출, 임의의 가격 상승 및 검열 정책에 따릅니다.

그만큼 새로운 종이 제목이 있습니다 환각과 싸우지 마십시오.Skolkovo Institute of Science and Technology (Skoltech), Moscow Physics and Technology Institute 및 Russian Companies MTS AI 및 AIRI의 5 명의 연구원에서 왔습니다. 작품에는 an이 있습니다 동반 GitHub 페이지.

방법

저자는 이스라엘/미국을 사용합니다 멍청이! 데이터 세트 프로젝트 :

Whoops의 불가능한 이미지의 예! 데이터 세트. 이러한 이미지가 그럴듯한 요소를 어떻게 조립하는지 주목할 만하며, 이러한 비 호환되지 않는면의 연결을 기반으로 불가능한 일을 계산해야합니다. 출처 : https://whoops-benchmark.github.io/

Whoops의 불가능한 이미지의 예! 데이터 세트. 이러한 이미지가 그럴듯한 요소를 어떻게 조립하는지 주목할 만하며, 이러한 비 호환되지 않는면의 연결을 기반으로 불가능한 일을 계산해야합니다. 출처 : https://whoops-benchmark.github.io/

이 데이터 세트는 500 개의 합성 이미지와 10,874 개 이상의 주석으로 구성되며, 특히 AI 모델의 상식적인 추론 및 구성 이해를 테스트하도록 설계되었습니다. 그것은 다음과 같은 텍스트-이미지 시스템을 통해 도전적인 이미지를 생성하는 임무를 수행하는 설계자와 협력하여 만들어졌습니다. 미드 주니 Dall-E 시리즈-자연스럽게 캡처하기 어렵거나 불가능한 시나리오를 생성합니다.

Whoops의 추가 예! 데이터 세트. 출처 : https://huggingface.co/datasets/nlphuji/whoops

Whoops의 추가 예! 데이터 세트. 출처 : https://huggingface.co/datasets/nlphuji/whoops

새로운 접근 방식은 3 단계로 작동합니다. 첫째, LVLM (구체적으로 llava-v1.6-mistral-7b)는 이미지를 설명하는 ‘원자 사실’이라는 여러 간단한 진술을 생성하라는 메시지가 표시됩니다. 이 진술은 사용하여 생성됩니다 다양한 빔 검색출력의 변동성을 보장합니다.

처음 제안 된 다양한 빔 검색은 다양성에 대한 목표를 최적화함으로써 더 다양한 캡션 옵션을 생성합니다. 출처 : https://arxiv.org/pdf/1610.02424

다양한 빔 검색은 다양성 구축 목표를 최적화하여 더 다양한 캡션 옵션을 생성합니다. 출처 : https://arxiv.org/pdf/1610.02424

다음으로, 각 생성 된 진술은 자연 언어 추론 모델을 사용하여 다른 모든 진술과 체계적으로 비교되며,이 명령문 쌍이 서로에 대해 수반, 모순 또는 중립인지를 반영하는 점수를 할당합니다.

모순은 이미지 내에서 환각이나 비현실적인 요소를 나타냅니다.

감지 파이프 라인 스키마.

감지 파이프 라인 스키마.

마지막으로,이 방법은 이들 쌍별 NLI 점수를 단일 ‘현실 점수’로 집계하여 생성 된 문의 전체 일관성을 정량화합니다.

연구원들은 클러스터링 기반 접근 방식이 가장 잘 수행되는 다양한 집계 방법을 탐구했습니다. 저자는 K- 평균 클러스터링 개별 NLI 점수를 두 개의 클러스터로 분리하는 알고리즘 중심 하부 값 클러스터 중 최종 메트릭으로 선택되었습니다.

두 클러스터를 사용하면 분류 작업의 이진 특성과 직접 정렬됩니다. 즉, 비현실적인 이미지와 현실적으로 구별됩니다. 논리는 단순히 가장 낮은 점수를 전체적으로 선택하는 것과 유사합니다. 그러나 클러스터링은 메트릭이 단일에 의존하기보다는 여러 사실에 대한 평균 모순을 나타낼 수 있습니다. 국외자.

데이터 및 테스트

연구원들은 Whoops에서 시스템을 테스트했습니다! 회전을 사용하는 기준선 벤치 마크 테스트 분할 (즉, 교차 검증). 테스트 된 모델이었습니다 blip2 flant5-xl 그리고 blip2 flant5-xxl 스플릿 및 blip2 flant5-xxl에서 제로 샷 형식 (즉, 추가 훈련없이).

지시를 따르는 기준선의 경우, 저자는 LVLMS에 문구를 자극했습니다. ‘이것은 비정상적입니까? 짧은 문장으로 간단히 설명 해주세요. ‘어느 사전 연구 비현실적인 이미지를 발견하는 데 효과적인 것으로 나타났습니다.

평가 된 모델은있었습니다 llava 1.6 Mistral 7b,,, llav 1.6 Vicuna 13b및 두 가지 크기 (7/13 억 매개 변수) instructblip.

테스트 절차는 102 쌍의 현실적이고 비현실적인 ( ‘이상한’) 이미지를 중심으로했습니다. 각 쌍은 하나의 정상적인 이미지와 하나의 상식을 방어하는 상대로 구성되었습니다.

3 명의 인간 주석이 이미지에 표시되어 92%의 합의에 도달하여 ‘이상 함’을 구성한 것에 대한 강력한 인간 합의를 나타냅니다. 평가 방법의 정확도는 현실적이고 비현실적인 이미지를 올바르게 구별하는 능력으로 측정되었습니다.

이 시스템은 3 배 교차 검증을 사용하여 평가되었으며, 고정 된 시드로 데이터를 무작위로 셔플 링 하였다. 저자는 훈련 중에 수염 점수 (논리적으로 동의하는 진술) 및 모순 점수 (논리적으로 충돌하는 진술)에 대해 가중치를 조정했으며 ‘중립’점수는 0으로 고정되었습니다. 최종 정확도는 모든 테스트 분할에서 평균으로 계산되었습니다.

정확도로 측정 된 5 개의 생성 된 사실의 서브 세트에서 서로 다른 NLI 모델과 집계 방법의 비교.

정확도로 측정 된 5 개의 생성 된 사실의 서브 세트에서 서로 다른 NLI 모델과 집계 방법의 비교.

위에 표시된 초기 결과와 관련하여 논문은 다음과 같습니다.

‘그만큼 [‘clust’] 메소드는 최고의 성과 중 하나로 두드러집니다. 이는 모든 모순 점수의 집계가 극단적 인 값에만 초점을 맞추기보다는 중요하다는 것을 의미합니다. 또한, 가장 큰 NLI 모델 (NLI-Deberta-V3-Large)은 모든 응집 방법에 대해 다른 모든 성능을 발휘하여 문제의 본질을보다 효과적으로 포착한다고 제안합니다. ‘

저자들은 최적의 가중치가 욕구에 대한 모순을 일관되게 선호했으며, 이는 모순이 비현실적인 이미지를 구별하는 데 더 유익하다는 것을 나타냅니다. 그들의 방법은 테스트 된 다른 모든 제로 샷 방법보다 성능이 우수하여 미세 조정 된 Blip2 모델의 성능에 밀접하게 접근했습니다.

Whoops에서 다양한 접근 방식의 성능! 기준. 미세 조정 (FT) 메소드는 상단에 나타나고 Zero-Shot (ZS) 방법은 아래에 나열됩니다. 모델 크기는 매개 변수 수를 나타내고 정확도는 평가 메트릭으로 사용됩니다.

Whoops에서 다양한 접근 방식의 성능! 기준. 미세 조정 (FT) 메소드는 상단에 나타나고 Zero-Shot (ZS) 방법은 아래에 나열됩니다. 모델 크기는 매개 변수 수를 나타내고 정확도는 평가 메트릭으로 사용됩니다.

그들은 또한 예기치 않게 비판적으로 동일한 프롬프트가 주어진 비슷한 LLAVA 모델보다 더 잘 수행했다고 언급했다. 이 논문은 GPT-4O의 우수한 정확성을 인식하는 동안 실용적이고 오픈 소스 솔루션을 보여주는 저자의 선호도를 강조하며, 환각을 진단 도구로 명시 적으로 이용할 때 참신함을 합리적으로 주장 할 수 있습니다.

결론

그러나 저자는 2024 년에 프로젝트의 부채를 인정합니다. FaithScore Outing, Dallas와 Johns Hopkins University의 텍사스 대학교 간의 공동 작업.

Faithscore 평가의 작동 방식에 대한 그림. 첫째, LVLM 생성 답변 내의 설명 진술이 식별됩니다. 다음으로,이 진술은 개별 원자 사실로 나뉩니다. 마지막으로, 원자 사실은 입력 이미지와 비교하여 정확도를 확인합니다. 밑줄이 그어진 텍스트는 객관적인 설명 내용을 강조하는 반면, 파란색 텍스트는 환각 진술을 나타내므로 FaithScore가 해석 가능한 사실의 정확성을 전달할 수 있습니다. 출처 : https://arxiv.org/pdf/2311.01477

Faithscore 평가의 작동 방식에 대한 그림. 첫째, LVLM 생성 답변 내의 설명 진술이 식별됩니다. 다음으로,이 진술은 개별 원자 사실로 나뉩니다. 마지막으로, 원자 사실은 입력 이미지와 비교하여 정확도를 확인합니다. 밑줄이 그어진 텍스트는 객관적인 설명 내용을 강조하는 반면, 파란색 텍스트는 환각 진술을 나타내므로 FaithScore가 해석 가능한 사실의 정확성을 전달할 수 있습니다. 출처 : https://arxiv.org/pdf/2311.01477

FaithScore는 이미지 내용에 대한 일관성을 확인하여 LVLM 생성 설명의 신실함을 측정하는 반면, 새로운 논문의 방법은 자연 언어 추론을 사용하여 생성 된 사실의 모순을 통해 비현실적인 이미지를 감지하기 위해 LVLM 환각을 명시 적으로 이용합니다.

새로운 작업은 당연히 현재 언어 모델의 편심과 환각에 대한 성향에 달려 있습니다. 모델 개발이 BR 전적으로 비 연속 모델을 제시하고 새로운 작업의 일반적인 원칙조차 더 이상 적용되지 않습니다. 그러나 이것은 여전히 ​​남아 있습니다 도전적인 전망.

2025 년 3 월 25 일 화요일에 처음 출판되었습니다

게시물 이미지 현실주의를 평가하기 위해 AI 환각을 사용합니다 먼저 나타났습니다 Unite.ai.

Share post:

Subscribe

Popular

More like this
Related

H2 Clipper 항공 우주 제조에 로봇 떼를 배치 할 계획

Swarm Robotics에 의해 구동되는 미래의 항공 우주 제조 시설의...

서비스 로봇 공학은 Dallas에 자율 전달 로봇을 제공합니다

Serv의 최신 배송 로봇은 NVIDIA의 Jetson Orin 모듈을 사용하여...

Sanctuary AI는 강화 학습이 어떻게 유압 로봇 손을 제어 할 수 있는지 보여줍니다.

Sanctuary AI의 독점 로봇 그립퍼는 많은 활성의 자유도로 구분됩니다....

우크라이나의 드론이 러시아의 재밍을 때리는 방식

에스토니아 스타트 업 후 Krattworks 첫 번째 배치를 파견했습니다...