아날로그 시계를 읽기위한 AI의 투쟁은 더 깊은 의미를 가질 수 있습니다.

Date:

Chatgpt-4o 및 Adobe Firefly.

중국과 스페인의 연구원들의 새로운 논문에 따르면 GPT-4.1과 같은 다중 모드 AI 모델조차도 아날로그 시계 이미지에서 시간을 알려주는 데 어려움을 겪고 있습니다. 시계의 작은 시각적 변화는 주요 해석 오류를 유발할 수 있으며 미세 조정은 친숙한 예제에만 도움이됩니다. 결과는 실제 작업에서 익숙하지 않은 이미지에 직면 할 때 이러한 모델의 신뢰성에 대한 우려를 제기합니다.

인간이 중력 또는 기타 기본 물리적 원리와 같은 영역에 대한 깊은 이해를 발전시킬 때, 우리는 기본 추상화를 파악하기 위해 구체적인 예를 넘어선 것입니다. 이를 통해 우리는 상황에 맞서는 지식을 창의적으로 적용하고 실제로 본 원칙을 식별함으로써 새로운 사례, 이전에 본 적이없는 사례조차 인식 할 수 있습니다.

도메인이 충분히 중요 해지면 우리는 그것을 인식하기 시작할 수도 있습니다. 존재하지 않는 곳와 마찬가지로 파레 이돌실제 인스턴스를 인식하지 못하는 높은 비용으로 인해. 이 패턴을 인식하는 생존 메커니즘이 우리를 처분하는 것도 너무 강합니다. 더 넓은 범위의 패턴을 찾습니다 아무것도없는 곳.

더 일찍 그리고 더 반복적으로 도메인이 우리에게 주입됩니다. 더 깊습니다 접지 및 평생 지속성; 그리고 우리가 어린이들에게 노출되는 가장 초기의 시각적 데이터 세트 중 하나는 인쇄물 또는 대화식 아날로그 시계가 시간을 말하는 방법을 가르치는 데 사용되는 교육 클록의 형태로 제공됩니다.

아이들이 시간을 말하는 법을 배우도록 도와주기 위해 AIDS를 가르치십시오. 출처 : https://www.youtube.com/watch?v=ibbqxbhsnus

아이들이 시간을 말하는 법을 배우도록 도와주기 위해 AIDS를 가르치십시오. 출처 : https://www.youtube.com/watch?v=ibbqxbhsnus

그렇지만 시계 디자인의 패션 변화 때때로 우리에게 도전 할 수 있습니다.이 초기 도메인-마스터의 탄력성은 매우 인상적이며, 복잡하거나 ‘편심’디자인 선택에 직면하더라도 아날로그 시계를 식별 할 수 있습니다.

시계 장군의 도전적인 얼굴. 출처 : https://www.ablogtowatch.com/wait-a-minute-legible-is-the-most-part-of-watch-design/

시계의 도전적인 얼굴 쿠션. 출처 : https://www.ablogtowatch.com/wait-a-minute-legible-is-the-most-part-of-watch-design/

인간 수천 가지 예제가 필요하지 않습니다 시계의 작동 방식을 배우기 위해; 기본 개념이 파악되면 왜곡되거나 추상화 되더라도 거의 모든 형태로 인식 할 수 있습니다.

대조적으로 AI 모델 이이 작업에 직면하는 어려움은 더 깊은 문제를 강조합니다. 그들의 명백한 강점은 이해보다 대량 노출에 더 의존 할 수 있습니다.

모방 게임을 넘어?

표면 수준의 성능과 진정한 ‘이해’사이의 긴장은 최근 대규모 모델 조사에서 반복적으로 표현되었습니다. 지난 달 Zhejiang University와 Westlake University 종이 제목 PhD 수준의 LLM이 초등학교 추가를 진정으로 파악합니까? (이 기사의 초점이 아님) 결론 :

‘인상적인 벤치 마크에도 불구하고 모델은 상징적 표현과 기본 속성 위반으로 실패함으로써 입증 된 진정한 이해보다는 패턴 매칭에 비판적으로 의존합니다.

‘명시 적 규칙 제공 성과 장애는 고유의 건축 적 제약을 시사합니다. 이러한 통찰력은 평가 격차를 드러내고 패턴 인식 이상의 진정한 수학적 추론이 가능한 아키텍처의 필요성을 강조합니다. ‘

이번 주 에이 질문은 다시 반역 연주 및 우주 비행사와 스페인의 Universidad Politécnica de Madrid 사이의 공동 작업으로 다시 발생합니다. 제목 멀티 모달 대형 언어 모델 (MLLM)이 실제로 아날로그 시계에 시간을 말하는 법을 배웠습니까?,, 새로운 종이 멀티 모달 모델이 시간을 얼마나 잘 이해하는지 탐구합니다.

연구의 진행 상황은 논문에서 광범위하게 다루어 지지만, 연구원의 초기 테스트는 OpenAi의 초기 테스트를 설정했습니다. GPT-4.1 멀티 모달 언어 모델은 다양한 시계 이미지 세트에서 시간을 올바르게 읽는 데 어려움을 겪었으며 종종 간단한 경우에도 잘못된 답변을 제공합니다.

이는 모델의 교육 데이터에서 가능한 차이를 지적하여 모델이 실제로 기본 개념을 배울 수 있는지 여부를 테스트하기 위해보다 균형 잡힌 데이터 세트의 필요성을 높입니다. 따라서 저자는 가능한 한 번의 아날로그 시계의 합성 클럭 데이터 ​​세트를 치료하고 인터넷 이미지에서 발견 된 일반적인 편견을 피했습니다.

연구원의 합성 아날로그 클럭 데이터 ​​세트의 예는 새로운 작업에서 GPT 모델을 미세 조정하는 데 사용되었습니다. 출처 : https://huggingface.co/datasets/migonsa/analog_watches_finetune

연구원의 합성 아날로그 클럭 데이터 ​​세트의 예는 새로운 작업에서 GPT 모델을 미세 조정하는 데 사용되었습니다. 출처 : https://huggingface.co/datasets/migonsa/analog_watches_finetune

전에 미세 조정 새로운 데이터 세트에서 GPT-4.1은이 시계를 지속적으로 읽지 못했습니다. 그러나 새로운 컬렉션에 약간의 노출 된 후에는 성능이 향상되었지만 새로운 이미지가 이미 본 것 같았을 때만 개선되었습니다.

시계의 모양이나 손의 스타일이 바뀌면 정확도는 급격히 떨어졌습니다. 얇은 손이나 화살촉 (아래의 가장 오른쪽 이미지)과 같은 작은 조정조차도 그것을 버리기에 충분했습니다. 그리고 GPT-4.1은 Dali-esque를 해석하기 위해 추가로 어려움을 겪었습니다 ‘녹는 시계’:

표준 디자인 (왼쪽), 왜곡 된 모양 (중간) 및 수정 된 핸드 (오른쪽)가있는 시계 이미지, 미세 조정 전후 GPT-4.1에 의해 반환 된 시간과 함께. 출처 : https://arxiv.org/pdf/2505.10862

표준 디자인 (왼쪽), 왜곡 된 모양 (중간) 및 수정 된 핸드 (오른쪽)가있는 시계 이미지, 미세 조정 전후 GPT-4.1에 의해 반환 된 시간과 함께. 출처 : https://arxiv.org/pdf/2505.10862

저자는 GPT-4.1과 같은 현재 모델이 주로 시계 읽기를 학습 할 수 있다고 추론합니다. 시각적 패턴 일치더 깊은 시간 개념보다는 다음과 같이 주장합니다.

‘[GPT 4.1] 시계가 변형 될 때 또는 손이 더 얇아 화살촉이있을 때 실패합니다. 시간 추정의 평균 절대 오차 (MAE)는 150 번의 임의 시간이 초기 시계의 경우 232.48, 모양이 변형 된 경우 1380.69, 손이 변경 될 때 3726.93s입니다.

‘이 결과는 MLLM이 시간을 말하는 법이 아니라 오히려 암기 된 패턴을 배웠음을 시사합니다.’

충분한 시간

대부분의 교육 데이터 세트는 스크랩 된 웹 이미지에 의존하며 특정 시간을 반복하는 경향이 있습니다. 특히 10:10, 시계 광고에서 인기있는 설정:

새로운 논문에서, 아날로그 시계 이미지에서 '10'시간의 10 시간의 유병률의 예.

새로운 논문에서, 아날로그 시계 이미지에서 ’10’시간의 10 시간의 유병률의 예.

묘사 된이 제한된 시간 범위의 결과로, 모델은 좁은 범위의 가능한 클럭 구성 만 볼 수있어 반복적 인 패턴을 넘어 일반화하는 능력을 제한 할 수 있습니다.

왜 모델이 왜곡 된 시계를 올바르게 해석하지 못하는지에 대해서는 다음과 같이 말합니다.

‘GPT-4.1은 표준 클럭 이미지에서 예외적으로 잘 작동하지만 시계 핸즈를 얇게 만들고 화살촉을 추가하여 시계 핸드를 수정하면 정확도가 크게 떨어지는 것은 놀라운 일입니다.

‘직관적으로, 더 시각적으로 복잡한 변화 (왜곡 된 다이얼)가 성능에 더 큰 영향을 미칠 것으로 기대할 수 있지만,이 수정은 상대적으로 더 작은 효과를 갖는 것 같습니다.

‘이것은 의문을 제기합니다. MLLM은 어떻게 시계를 해석하고 왜 실패합니까? 한 가지 가능성은 얇은 손이 방향을 인식하는 모델의 능력을 손상시켜 공간 방향에 대한 이해를 약화시킬 수 있다는 것입니다.

‘대안 적으로, 모델이 시간, 분, 두 번째 손을 정확한 시간 읽기에 결합하려고 시도 할 때 혼란을 일으키는 다른 요인이있을 수 있습니다.’

저자는 이러한 실패의 근본 원인을 식별하는 것이 다중 모드 모델을 발전시키는 데 중요하다고 주장합니다. 문제가 공간 방향을 인식하는 방법에 문제가있는 경우 미세 조정이 간단한 수정을 제공 할 수 있습니다. 그러나 문제가 여러 시각적 신호를 통합하는 데 더 어려운 어려움에서 비롯된 경우 이러한 시스템이 정보를 처리하는 방식에서보다 근본적인 약점을 나타냅니다.

미세 조정 테스트

노출로 모델의 고장을 극복 할 수 있는지 여부를 테스트하기 위해, GPT-4.1은 앞서 언급하고 포괄적 인 합성 데이터 세트에서 미세 조정되었습니다. 미세 조정하기 전에 예측은 널리 퍼져 있었고 모든 유형의 시계에 대한 상당한 오류가있었습니다. 컬렉션을 미세 조정 한 후, 정확도는 표준 시계면에서 급격히 향상되었으며, 왜곡 된 것도 더 적게 개선되었습니다.

그러나 얇은 모양이나 화살촉과 같은 손을 수정 한 클록은 계속해서 큰 오류를 일으켰습니다.

두 가지 뚜렷한 실패 모드가 나타났습니다 : 정상 및 왜곡 된 시계에서, 모델은 일반적으로 손의 방향을 잘못 판단했다. 그러나 변경된 시계에서 핸드 스타일그것은 종종 각 손의 기능을 혼란스럽게하고 착각했습니다. 시간 ~을 위한 또는 ~을 위한 두번째.

모델의 초기 약점과 미세 조정을 통해 달성 된 부분적 이득을 보여주는 비교는 150 개의 무작위로 선택된 시계에 대해 예측 대 실제 시간을 보여줍니다. 왼쪽에서 미세 조정하기 전에 GPT-4.1의 예측은 흩어져 있으며 종종 빨간색 대각선으로 표시되는 올바른 값과는 거리가 멀다. 오른쪽에서, 균형 잡힌 합성 데이터 세트에서 미세 조정 한 후, 일부 오류는 남아 있지만, 예측은 지상 진실과 훨씬 더 밀접하게 일치합니다.

모델의 초기 약점과 미세 조정을 통해 달성 된 부분적 이득을 보여주는 비교는 150 개의 무작위로 선택된 시계에 대해 예측 대 실제 시간을 보여줍니다. 왼쪽에서 미세 조정하기 전에 GPT-4.1의 예측은 흩어져 있으며 종종 빨간색 대각선으로 표시되는 올바른 값과는 거리가 멀다. 오른쪽에서, 균형 잡힌 합성 데이터 세트에서 미세 조정 한 후, 일부 오류는 남아 있지만, 예측은 지상 진실과 훨씬 더 밀접하게 일치합니다.

이는이 모델이 손 두께와 같은 시각적 특징을 특정 역할과 연관시키는 법을 배웠으며 이러한 신호가 바뀌면 어려움을 겪었음을 시사합니다.

익숙하지 않은 디자인에 대한 제한된 개선은 이런 종류의 모델이 시간을 따르는 추상적 인 개념을 배우거나 단순히 패턴 매칭을 개선하는지에 대한 의문을 더욱 제기합니다.

손으로 표시됩니다

따라서 미세 조정이 기존의 아날로그 시계에서 GPT-4.1의 성능을 향상 시켰지만, 손이나 화살촉 모양의 얇은 시계에 훨씬 적은 영향을 미쳤으므로 모델의 실패가 추상적 추론과 혼란으로 인해 손이 덜 혼란 스러울 가능성을 높였습니다.

혼란이 제거되면 정확도가 향상 될 수 있는지 테스트하기 위해 ‘수정 된 직접’데이터 세트에 대한 모델의 예측에 대한 새로운 분석이 수행되었습니다. 출력은 두 그룹으로 나뉘어졌습니다. GPT-4.1이 시간, 분 및 두 번째 손을 올바르게 인식 한 경우; 그리고 그렇지 않은 경우.

예측은 평가되었습니다 평균 절대 오류 (MAE) 미세 조정 전후의 결과 및 표준 클록의 결과와 비교 한 결과; 각도 오류는 다이얼 위치를 기준으로 사용하여 각 손에 대해 측정되었습니다.

미세 조정 전후에 수정 된 핸드 데이터 세트에서 손으로 혼동되지 않은 시계에 대한 오류 비교.

미세 조정 전후에 수정 된 핸드 데이터 세트에서 손으로 혼동되지 않은 시계에 대한 오류 비교.

시계 손의 역할을 혼동하면 가장 큰 오류가 발생했습니다. GPT-4.1이 Minute Hand 또는 그 반대의 시간을 착각했을 때, 결과 시간 추정치는 종종 멀었습니다. 대조적으로, 올바르게 식별 된 손의 방향을 잘못 판단하여 발생하는 오류는 더 작았습니다. 세 손 중에서 시간 손은 가장 높았습니다. 미세 조정 전 각 오류, 초침은 가장 낮은 것으로 나타났습니다.

수정 된 손 데이터 세트에서 미세 조정 전후의 손으로 혼동이 있거나없는 예측을위한 손으로의 각도 오류.

수정 된 손 데이터 세트에서 미세 조정 전후의 손으로 혼동이 있거나없는 예측을위한 손으로의 각도 오류.

방향 오류에만 초점을 맞추기 위해 분석은 모델이 각 손의 기능을 올바르게 식별 한 경우로 제한되었습니다. 모델이 일반적인 시간을 내면 내부화 된 경우,이 예제에 대한 성능은 표준 시계의 정확도와 일치해야합니다. 그것은 그렇지 않았고 정확성은 눈에 띄게 악화되었습니다.

손을 조사합니다 모양 모델의 방향 감각을 방해하면 두 번째 실험이 실행되었습니다. 각각 1 시간의 손으로 단지 60 개의 합성 시계를 포함하여 두 개의 새로운 데이터 세트가 생성되어 다른 분을 가리 킵니다. 한 세트는 원래 핸드 디자인을 사용하고 다른 세트는 변경된 버전을 사용했습니다. 이 모델은 손이 가리키고있는 진드기 마크의 이름을 지정하도록 요청 받았다.

결과는 수정 된 손으로 약간의 정확도가 감소했지만 모델의 더 넓은 실패를 설명하기에는 충분하지 않았습니다. 에이 단일 익숙하지 않은 시각적 기능 이전에 잘 수행 한 작업에서도 모델의 전반적인 해석을 방해 할 수 있습니다.

표준, 왜곡 및 수정 된 손 시계를 가로 질러 미세 조정 전후의 GPT-4.1의 성능에 대한 개요는 고르지 않은 이익과 지속적인 약점을 강조합니다.

표준, 왜곡 및 수정 된 손 시계를 가로 질러 미세 조정 전후의 GPT-4.1의 성능에 대한 개요는 고르지 않은 이익과 지속적인 약점을 강조합니다.

결론

이 논문의 초점은 언뜻보기에는 사소한 것처럼 보일 수 있지만, 비전 언어 모델이 100% 정확도로 아날로그 시계를 읽는 법을 배우는 것은 특히 중요하지 않습니다. 작업 중량을주는 것은 더 깊은 반복되는 질문에 중점을 둡니다. 더 많은 (그리고 더 다양한) 데이터를 가진 포화 모델이 인간이 추상화와 일반화를 통해 얻는 도메인을 이해할 수 있는지 여부; 또는 유일한 경로가 추론에서 가능한 모든 변화를 예상하기에 충분한 예를 가지고 도메인을 범람하는지 여부.

어느 경로 어느 쪽이든 현재 아키텍처가 진정으로 학습 할 수있는 것이 무엇인지에 대한 의문을 제기합니다.

2025 년 5 월 19 일 월요일에 처음 출판되었습니다

게시물 아날로그 시계를 읽기위한 AI의 투쟁은 더 깊은 의미를 가질 수 있습니다. 먼저 나타났습니다 Unite.ai.

Share post:

Subscribe

spot_imgspot_img

Popular

More like this
Related

2025 요약을 자동화하십시오

로봇 보고서 팟 캐스트 · 2025 요약을 자동화하십시오에피소드 196에서...

Saildrone은 유럽 해상의 존재를 확대하기 위해 6 천만 달러를 가져옵니다

Advanced Censors 제품군이 장착 된 Saildrone의 시스템은 표면 위와...

Orbbec, Connect Tech를 위해 Gemini 스테레오 깊이 카메라를 지원합니다.

Orbbec의 Gemini 335LG 스테레오 비전 3D 카메라는 자율 모바일...

프로토 타입 컴퓨터는 소음을 유리하게 사용합니다

새로운 컴퓨팅 패러다임 (발상학적 컴퓨팅)이 장면에 들어갔다. 알았어, 아마도...