AI 뉴스허브

‘더 많은 레이블 다운로드!’ AI 연구에서의 환상

‘더 많은 레이블 다운로드!’ AI 연구에서의 환상

‘더 많은 레이블 다운로드!’ AI 연구에서의 환상

현재 기계 학습 연구에서 일반적인 견해는 머신 러닝 자체가 될 수 있다는 것입니다. 개선하는 데 사용됩니다 AI 데이터 세트 주석의 품질-특히 비전 언어 모델 (VLM)에 사용하기위한 이미지 캡션. 이 사고 라인은 높은 비용 인간의 주석과 추가 부담 감독 주석기 성능.

아마도 이것은 2000 년대 초반의 AI에 해당합니다. ‘더 많은 램을 다운로드’밈하드웨어 제한이 소프트웨어 기반 수정으로 해결 될 수 있다는 개념을 풍자했습니다.

또한 그에 따른 문제이기도합니다. 새로운 AI 모델은 공공 및 상업 분야 모두에서 광범위한 관심을 끌고 있지만, 주석은 종종 더 넓은 프레임 워크를 둘러싼 흥분으로 인해 기계 학습 파이프 라인에서 사소한 세부 사항 인 것으로 보입니다.

사실, 기계 학습 시스템이 패턴 (거의 모든 AI 시스템의 중심 사용 사례)을 인식하고 재현하는 용량은 다음과 같습니다. 매달린 실제 주석의 품질과 일관성-실제 사람들이 만들거나 판결 한 레이블과 문구, 종종 개별 데이터 포인트에 대한 주관적인 판단을 내립니다. 비 이상적인 상황.

필연적으로, 주석 거동에서 패턴을 관찰하고 재현하려는 시스템 (그리고 인간 주석기를 대체하고 규모에 따라 정확한 라벨링을 용이하게하는 시스템). ~ 아니다 인간 관찰자로부터 가져온 예에 포함되어 있습니다. ‘비슷한’것은 꽤 동일하지 않으며, 상대방 동등성은 여전히 문제가있는 추구 컴퓨터 비전에서.

‘업스트림 데이터 벅’은 어딘가에 멈추어야하며,이 경우 인간 소뇌가 인공 시스템에 대한 데이터를 체계화하기 위해 일종의 주관적인 구분을하는 곳과 정확히 멈추는 곳입니다.

헝겊 거래

최근까지, 표적화 된 데이터 세트 주석으로부터 발생하는 부정확성은 아마도 생성 AI 시스템에서 얻은 불완전하지만 여전히 시장 가능한 결과의 맥락에서 허용 가능한 담보 손상으로 여겨졌다.

실제로 올해 싱가포르의 연구 결론 저것 환각 – 즉, AI 시스템이 우리의 의도를 훼손하는 것들을 발명했을 때 – 불가피하고 그러한 시스템의 개념적 아키텍처에 묶여 있습니다.

이것에 대응하기 위해 헝겊 기반 요원 – 인터넷 검색을 통해 사실을 ‘확인’할 수 있습니다 – 연구 및 응용 상업용 솔루션에서 인기가 있습니다. 그러나 자원 비용과 쿼리의 대기 시간에 추가됩니다. 또한, 훈련 된 모델에 적용되는 새로운 정보는 훈련 된 모델에서 기본 층을 특성화하는보다 복잡하고 깊이있는 연결과 경쟁 할 수 없습니다.

그러므로 이러한 모델을 알리는 주석 데이터가 완벽 할 수 없더라도 처음에는 결함이 덜 결함이라면 더 나을 것입니다 (이 활동이 인간의 주관성의 영역에 침입하기 때문에).

보증

독일의 새로운 논문은 특히 이미지 캡션의 정확성과 신뢰성에 중점을 둔 오래되고 널리 사용되는 데이터 세트에 의존하여 발생하는 문제를 강조합니다. 연구원의 연구 결과에 따르면 벤치 마크의 레이블 오류는 시력 모델에서 환각을 가리거나 허위 진술 할 수 있다고 제안합니다.

새 논문에서 원래 캡션이 이미지의 MSCOCO 데이터 세트에서 객체를 올바르게 식별하지 못한 일부 예제. Pope Benchmark 데이터 세트의 연구원의 수동 개정은 이러한 단점을 해결하여 주석 큐 레이션에 대한 비용을 절약하는 비용을 보여줍니다. 출처 : https://arxiv.org/pdf/2504.15707

모델에 거리 장면의 이미지가 표시되어 자전거가 있는지 물었습니다. 모델은 답변합니다 . 벤치 마크 데이터 세트에 자전거가 없다고 말하면 모델이 표시됩니다. 잘못된. 그러나 자전거가 있다면 명확하게 보입니다 이미지에서, 주석 중에 단순히 놓친 경우 모델의 대답이 정확했고 벤치 마크가 실패했습니다. 이와 같은 오류는 데이터 세트에 걸쳐 축적 될 수 있으며, 어떤 모델이 정확하고 환각이 발생하는지에 대한 왜곡 된 그림을 제공합니다.

따라서, 부정확하거나 모호한 주석이 근거 진실로 취급 될 때, 모델이 정확할 때 환각으로 보일 수 있거나, 그렇지 않은 경우에도 정확해 보일 수 있고, 환각 측정과 모델 성능의 순위를 왜곡하고, ​​확실성으로 문제를 진단하거나 해결하기가 더 어려워집니다.

새로운 논문은 널리 사용되는 벤치 마크를 다시 방문합니다 폴링 기반 객체 조사 평가 (Pope)는 시력 모델이 이미지에 무엇이 있는지 또는 그렇지 않은지 올바르게 말할 수 있는지 테스트합니다.

교황은 영향력있는 라벨을 기반으로합니다 Microsoft Coco : 맥락에서 일반적인 개체 (MSCOCO) 데이터 세트, 오랫동안 주석이 좋은 이미지 모음 인 DataSet은 오랫동안 주석이 좋은 수준의 주석 정확도를 제공하는 것으로 취급되었습니다.

교황은 문제를 이진 분류 작업. 구문 분석 생성 캡션 대신 시스템은 간단합니다 예/아니오 특정 객체가 이미지에 존재하는지 여부에 대한 모델에 대한 질문은 다음과 같은 템플릿을 사용합니다. ‘이미지에 가 있습니까?’.

비전 언어 모델에서 객체 환각의 예. Bold Labels는 원래 주석에있는대로 표시된 객체를 나타내며, 빨간색 레이블은 모델에 의해 환각 된 개체를 보여줍니다. 왼쪽 예제는 기존의 교육 기반 평가를 반영하는 반면 오른쪽의 세 가지 예는 다른 교황 벤치 마크 변형에서 가져옵니다. 출처 : https://aclanthology.org/2023.emnlp-main.20.pdf

지상 진실 대상 (답 : )는 샘플링되지 않은 비 존재 객체와 쌍을 이룹니다 (답 : 아니요), 임의의 빈번한 (인기 있는) 또는 동시 발생 기반 (대적) 전략. 이 설정을 통해 복잡한 규칙 기반 캡션 분석에 의존하지 않고도 환각에 대한보다 안정적이고 신속한 환각 평가가 가능합니다.

저자 새로운 종이 – 제목 Repope : Pope 벤치 마크에 대한 주석 오류의 영향 – 벤치 마크의 이미지 (예 : mscoco)의 레이블을 다시 확인하여 교황의 정확성에 도전하고 놀라운 숫자가 잘못되었거나 불분명하다는 것을 알게됩니다.

2014 MSCOCO 데이터 세트의 예. 출처 : https://arxiv.org/pdf/1405.0312

이러한 오류는 모델이 순위가 매겨지는 방식을 바꾸고 수정 된 레이블에 대해 판단 할 때 처음에는 잘 수행 된 것입니다.

테스트에서 저자는 원래 교황 벤치 마크와 그 라벨링 된 모두에 대한 다양한 오픈 가이트 비전 언어 모델을 평가했습니다. 보증 버전.

논문에 따르면, 수정 된 주석은 특히 모델 순위에 주목할만한 변화를 가져 왔습니다. F1 교황 아래 몇 가지 고성능 모델이 보증하에 위치한 점수.

저자는 이러한 변화가 주석 오류가 모델의 실제 환각 동작을 가릴 수있는 정도를 보여주고 환각 취약성을 평가하기위한보다 신뢰할 수있는 도구로서 Repope을 제시한다고 주장합니다.

새 논문의 또 다른 예에서, 우리는 원래 교황 캡션이 가장 오른쪽 사진의 전차 오두막 옆에 앉아있는 사람 또는 왼쪽에서 두 번째 사진의 테니스 플레이어가 가려진 의자와 같이 미묘한 물건을 식별하지 못하는 방법을 알 수 있습니다.

방법 및 테스트

연구원들은 원래 MSCOCO 데이터 세트의 모든 주석을 다시 표지했으며, 각 데이터 인스턴스에 2 개의 인간 라벨러가 할당되었습니다. 원래 레이블의 품질에 대한 모호성이 발생하는 경우 (아래 예제에서와 같이),이 결과는 테스트 라운드에서 제외되었습니다.

교황의 라벨링 불일치가 불분명 한 범주 경계를 반영하는 모호한 경우. 예를 들어, 테디 곰은 곰으로 표시, 자전거로 오토바이 또는 공항 차량으로 차량으로 표시됩니다. 이러한 사례는 그러한 분류의 주관적 특성과 MSCoco의 원래 레이블의 불일치로 인해 보험료에서 제외되었습니다.

논문은 다음과 같습니다.

‘원래의 주석기는 백그라운드 나 유리 뒤에있는 사람을 놓쳤으며 테니스 플레이어는 배경에서’의자 ‘를 막고 Cole Slaw에는 당근의 작은 눈에 띄는 줄무늬 만 포함되어 있습니다.

‘일부 개체의 경우, 코코 주석은 원래 주석기가 사용하는 객체의 다른 정의로 ​​인해 일관성이 없을 것입니다. ‘테디 베어’를 ‘베어’로 분류, ‘자전거’로 모터 사이클 또는 ‘자동차’로 공항 차량은 특정 정의에 달려있어 교황 지상 진실 주석의 불일치로 이어집니다. 따라서 해당 이미지 퀘스트 쌍을 ‘모호한’것으로 주석을 달 수 있습니다.

재 등전 결과 : 긍정적 인 질문은 세 명의 교황 변형 모두에서 공유됩니다. 교황의 ‘예’라는 표시 중 9.3 %가 잘못된 것으로 밝혀졌으며 13.8 %는 모호한 것으로 분류되었습니다. ‘아니오’질문의 경우 1.7 %가 잘못 표지되었고 4.3 %는 모호했습니다.

저자는 다양한 아키텍처 및 모델 크기에 걸쳐 교황과 대출에 대한 다양한 오픈 웨이트 모델을 평가했습니다. 선택된 모델에는 OpenVlm 리더 보드 : Internvl2.5 (8B/26B/38B/78B 및 8B-MPO/26B-MPO); llava-next; 비쿠나; 미스트랄 7b; 야마; 용암; ovis2 (1B/2B/4B/8B); Paligemma-3b; 및 paligemma2 (3B/10B).

초기 결과 : 원래의 양수 레이블의 높은 오류율은 모든 모델에서 진정한 긍정이 급격히 떨어지게됩니다. 오 탐지는 하위 세트마다 다르며, 랜덤 하위 집합에서는 거의 두 배가되지만 대중 하위 집합에서는 크게 변하지 않으며, 부적 서브 세트에서 약간 감소합니다. Relabeling은 F1 기반 순위에 큰 영향을 미칩니다. 교황의 대중적이고 적대적 스플릿에서 잘 수행 된 OVIS2-4B 및 OVIS2-8B와 같은 모델도 Repope의 임의 하위 집합에서 상단으로 올라갑니다. 더 나은 해상도는 소스 PDF를 참조하십시오.

위의 결과 그래프는 벤치 마크에서 레이블을 수정 한 후 실제 긍정 및 오 탐지의 수가 어떻게 변하는지를 보여줍니다.

진정한 긍정은 모든 모델에 걸쳐 떨어졌으며, 결함이있는 레이블에서만 해당 답변이 정확했을 때 정답으로 종종 인정되었음을 보여 주었고, 오 탐지는 더 다양한 패턴을 따랐습니다.

교황의 ‘무작위’버전에서, 거짓 긍정은 거의 거의 없습니다 두 배 많은 모델의 경우, 환각으로 표시된 상당수의 물체가 실제로 이미지에 존재했지만 원래 주석에서는 놓쳤음을 나타냅니다. 이 경우 많은 모델 오류는 실제로 데이터 세트 레이블링 실수였습니다.

교황의 ‘적대적’버전의 경우, 질문은 종종 동시에 발생하는 대상을 기반으로 한 거짓 긍정은 감소했습니다. 이것은 아마도 결석 한 대상이 실제로 이미지에서 그러나 왼쪽 표지되지 않은.

이러한 변화는 정밀도와 리콜에 영향을 미쳤지 만 모델 순위는 두 지표 모두에 대해 비교적 안정적으로 유지되었습니다.

교황의 주요 평가 조치 인 F1 점수는 라벨 보정에 훨씬 더 민감했습니다. 랜덤 서브 세트에서, Internvl2.5-8B 및 -26B와 같은 원래 레이블 아래에서 상단 근처에 순위가 매겨진 모델은 Repope로 점수를 매기면 바닥으로 떨어졌습니다. OVIS2-4B 및 -8B와 같은 다른 것들이 상단으로 상승했습니다.

정확도 점수에서 유사한 패턴이 나타 났지만 저자는 수정 된 데이터 세트에 고르지 않은 긍정적 및 부정적인 예가 포함되어 있기 때문에 이제는 바이어스 될 수 있다고 지적합니다.

저자는 벤치 마크 결과에 주석 오류의 강한 영향이 고품질 데이터의 필요성을 강조한다고 주장합니다. 보다 신뢰할 수있는 객체 환각 평가를 지원하기 위해 수정 된 레이블을 릴리스했습니다 Github에서.

그러나이 재 표지는 벤치 마크의 채도를 완전히 해결하지 못한다는 점에 주목합니다. 많은 모델이 여전히 90%이상으로 진정한 긍정적이고 진정한 음수 속도를 달성하기 때문입니다. 그들은 다음과 같은 추가 벤치 마크를 제안합니다 대시 B더 어려운 부정적인 예제를 사용하는 것은 Repope와 함께 사용해야합니다.

결론

이 특정 실험은 관련된 데이터 세트의 작은 규모로 인해 가능했습니다. Hyperscale 데이터 세트에서 동일한 가설을 입증하는 것은 매우 제한된 데이터 조각에서 작업하는 것이 포함됩니다. 매우 다양한 대형 데이터 세트에서는 통계적으로 대표적이고 의미 적으로 일관된 그룹화를 분리하는 것이 거의 불가능한 것으로 판명 될 수 있습니다.

가능하더라도 현재의 최첨단에 어떤 구제책이 있습니까? 논쟁은 필연적으로 더 나은 인간 주석의 필요성으로 돌아갑니다.

이와 관련하여, ‘더 나은 것’과 ‘더 많은 부자’는 그 자체로 별도의 문제로 존재합니다. 아마존 기계 터크 (AMT)와 같은 경쟁 경제를 통해 더 많은 양의 주석을 얻을 수 있기 때문입니다. 분명히, 이것은 잠재적으로 착취 하위 경제 자주 열등한 결과로 이어집니다.

또는 동일한 지출이 대량의 주석을 산출 할 수있는 경제 지역에 주석 작업을 농사 할 수 있습니다. 그러나, 메노 테이터는 라벨이 형성 할 모델의 의도 된 사용 사례에서 추가로 제거 될수록 결과 모델이 대상 도메인의 요구 또는 기대와 일치 할 가능성이 줄어 듭니다.

따라서 이것은 기계 학습 개발의 경제학에서 가장 지속적이고 해결되지 않은 과제 중 하나입니다.

2025 년 4 월 23 일 수요일에 처음 출판되었습니다

게시물 ‘더 많은 레이블 다운로드!’ AI 연구에서의 환상 먼저 나타났습니다 Unite.ai.

Exit mobile version