벤치 마크 너머 : AI 평가에 현실 점검이 필요한 이유

Date:

요즘 AI를 따르고 있다면 벤치 마크 레코드를 달성하는 AI 모델의 획기적인 성과를보고하는 헤드 라인을 보았을 것입니다. ImageNet 이미지 인식 작업에서 번역 및 의료 이미지 진단에서 초인간 점수 달성에 이르기까지 벤치 마크는 오랫동안 AI 성능 측정의 금 표준이었습니다. 그러나 이러한 숫자만큼 인상적이지만 항상 실제 응용 프로그램의 복잡성을 포착하는 것은 아닙니다. 벤치 마크에서 완벽하게 수행되는 모델은 실제 환경에서 테스트를 할 때 여전히 부족할 수 있습니다. 이 기사에서는 왜 전통적인 벤치 마크가 AI의 진정한 가치를 포착하는 데 미치지 못하고, 실제 세계에 AI를 배치하는 역동적이고 윤리적이며 실질적인 과제를 더 잘 반영하는 대체 평가 방법을 탐구합니다.

벤치 마크의 매력

수년 동안 벤치 마크는 AI 평가의 기초였습니다. 객체 인식 또는 기계 번역과 같은 특정 작업을 측정하도록 설계된 정적 데이터 세트를 제공합니다. imagenet예를 들어, 객체 분류 테스트에 널리 사용되는 벤치 마크이며 블루 그리고 연지 인간이 작성한 참조 텍스트와 비교하여 기계로 생성 된 텍스트의 품질을 평가하십시오. 이러한 표준화 된 테스트를 통해 연구원들은 진행 상황을 비교하고 현장에서 건강한 경쟁을 일으킬 수 있습니다. 벤치 마크는이 분야의 주요 발전을 주도하는 데 중요한 역할을했습니다. 예를 들어 Imagenet 경쟁 연주 상당한 정확도 개선을 보여줌으로써 딥 러닝 혁명에서 중요한 역할.

그러나 벤치 마크는 종종 현실을 단순화합니다. AI 모델은 일반적으로 고정 된 조건에서 잘 정의 된 단일 작업을 개선하도록 훈련되므로 과도하게 최적화 될 수 있습니다. 높은 점수를 얻으려면 모델은 벤치 마크를 넘어서지 않는 데이터 세트 패턴에 의존 할 수 있습니다. 유명한 늑대를 허스키와 구별하도록 훈련 된 비전 모델입니다. 동물 특징을 구별하는 것을 배우는 대신이 모델은 훈련 데이터에서 일반적으로 늑대와 관련된 눈 덮인 배경의 존재에 의존했습니다. 결과적으로, 모델에 눈에 허스키가 제시되었을 때, 그것은 그것을 늑대로 잘못 표명했습니다. 이를 통해 벤치 마크에 과적이되는 방법이 결함이있는 모델로 이어질 수 있습니다. 처럼 굿 하트의 법칙 “측정 값이 목표가되면 좋은 척도가되지 않습니다.” 따라서 벤치 마크 점수가 대상이되면 AI 모델은 Goodhart의 법칙을 설명합니다. 리더 보드에서 인상적인 점수를 생성하지만 실제 문제를 다루는 데 어려움을 겪고 있습니다.

인간의 기대 대 메트릭 점수

벤치 마크의 가장 큰 한계 중 하나는 종종 인간에게 진정으로 중요한 것을 포착하지 못한다는 것입니다. 기계 번역을 고려하십시오. 모델은 BLEU 메트릭에서 점수를 매길 수 있으며, 이는 기관 생성 번역과 기준 번역 간의 중첩을 측정합니다. 메트릭은 변환이 단어 수준의 겹치는 측면에서 그럴듯한 방법을 측정 할 수 있지만 유창함이나 의미를 설명하지는 않습니다. 번역은 참조와 다른 문구를 사용했기 때문에 더 자연 스럽거나 훨씬 더 정확하지만 점수가 좋지 않을 수 있습니다. 그러나 인간 사용자는 참조와 정확히 일치하는 것이 아니라 번역의 의미와 유창성에 관심이 있습니다. 동일한 문제는 텍스트 요약에 적용됩니다. Rouge 점수가 높다고해서 요약이 일관성이 있거나 인간 독자가 기대할 핵심 포인트를 캡처하지는 않습니다.

생성 AI 모델의 경우 문제가 더욱 어려워집니다. 예를 들어, 대형 언어 모델 (LLM)은 일반적으로 벤치 마크에서 평가됩니다. MMLU 여러 도메인에서 질문에 답할 수있는 능력을 테스트합니다. 벤치 마크는 질문에 답변하기 위해 LLM의 성능을 테스트하는 데 도움이 될 수 있지만 신뢰성을 보장하지는 않습니다. 이 모델은 여전히“환각“잘못되지만 그럴듯한 소리를내는 사실을 제시하십시오.이 격차는 진실성, 맥락 또는 일관성을 평가하지 않고 정답에 중점을 둔 벤치 마크에 의해 쉽게 감지되지 않습니다. 사례AI 보조원은 전적으로 가짜 법원 사건을 인용 한 법적 간단한 요약을 작성하는 데 사용되었습니다. AI는 종이를 설득력있게 보일 수 있지만 진실성에 대한 기본적인 인간의 기대에 실패했습니다.

역동적 인 맥락에서 정적 벤치 마크의 도전

  • 변화하는 환경에 적응

정적 벤치 마크는 제어 된 조건에서 AI 성능을 평가하지만 실제 시나리오는 예측할 수 없습니다. 예를 들어, 대화식 AI는 벤치 마크에서 스크립트 한 단일 회전 질문에 뛰어나지만 후속 조치, 속어 또는 오타를 포함하는 다단계 대화에서 어려움을 겪을 수 있습니다. 마찬가지로, 자율 주행 자동차는 종종 이상적인 조건에서 객체 탐지 ​​테스트에서 잘 작동하지만 실패하다 조명 불량, 악천후 또는 예기치 않은 장애물과 같은 비정상적인 상황에서. 예를 들어, 스티커로 변경된 정지 부호는 할 수 있습니다 혼란시키다 자동차의 비전 시스템으로 오해로 이어집니다. 이 예는 정적 벤치 마크가 실제 복잡성을 안정적으로 측정하지 않는다는 것을 강조합니다.

  • 윤리적, 사회적 고려 사항

전통적인 벤치 마크는 종종 AI의 윤리적 성과를 평가하지 못합니다. 이미지 인식 모델은 높은 정확도를 달성 할 수 있습니다 잘못 식별하십시오 편향된 훈련 데이터로 인해 특정 민족 그룹의 개인. 마찬가지로, 언어 모델은 편견이 있거나 유해한 콘텐츠를 생성하면서 문법과 유창함에서 점수를 매길 수 있습니다. 벤치 마크 메트릭에 반영되지 않은 이러한 문제는 실제 응용 프로그램에서 중요한 결과를 초래합니다.

  • 미묘한 측면을 포착 할 수 없습니다

벤치 마크는 모델이 문법적으로 올바른 텍스트를 생성 할 수 있는지 또는 현실적인 이미지를 생성 할 수 있는지 여부와 같은 표면 수준 기술을 확인하는 데 좋습니다. 그러나 그들은 종종 상식 추론이나 맥락 적합성과 같은 더 깊은 특성으로 어려움을 겪고 있습니다. 예를 들어, 모델은 완벽한 문장을 생성하여 벤치 마크에서 뛰어날 수 있지만 해당 문장이 사실적으로 부정확하다면 쓸모가 없습니다. AI는 이해해야합니다 언제 그리고 어떻게 단지 무언가를 말하는 것 무엇 말하면. 벤치 마크는이 수준의 인텔리전스를 거의 테스트하지 않으며, 이는 챗봇이나 콘텐츠 제작과 같은 응용 프로그램에 중요합니다.

  • 맥락 적응

AI 모델은 종종 새로운 맥락에 적응하기 위해 노력하고 있습니다. 특히 교육 세트 외부의 데이터에 직면 할 때. 벤치 마크는 일반적으로 모델의 교육과 유사한 데이터로 설계됩니다. 이는 모델이 실제 또는 예상치 못한 입력을 얼마나 잘 처리 할 수 ​​있는지 완전히 테스트하지 않음을 의미합니다. 실제 응용 프로그램에서 중요한 요구 사항입니다. 예를 들어, 챗봇은 벤치마킹 된 질문에 대한 성능이 뛰어날 수 있지만 사용자가 속어 나 틈새 주제와 같은 관련없는 것을 물으면 어려움을 겪습니다.

  • 추론과 추론

벤치 마크는 패턴 인식 또는 컨텐츠 생성을 측정 할 수 있지만 종종 높은 수준의 추론과 추론에 부족합니다. AI는 패턴을 모방하는 것 이상을 수행해야합니다. 의미를 이해하고 논리적으로 연결하고 새로운 정보를 추론해야합니다. 예를 들어, 모델은 사실적으로 올바른 응답을 생성하지만 더 광범위한 대화에 논리적으로 연결하지 못할 수 있습니다. 현재 벤치 마크는 이러한 고급인지 기술을 완전히 포착하지 못해 AI 기능을 불완전하게 볼 수 있습니다.

벤치 마크 너머 : AI 평가에 대한 새로운 접근 방식

벤치 마크 성능과 실제 성공 사이의 격차를 해소하기 위해 AI 평가에 대한 새로운 접근 방식이 나타나고 있습니다. 다음은 견인력을 얻는 몇 가지 전략입니다.

  • 루프 피드백 : 자동 지표에만 의존하는 대신 인간 평가자가 그 과정에 포함됩니다. 이는 전문가 나 최종 사용자가 품질, 유용성 및 적절성에 대한 AI의 출력을 평가하도록하는 것을 의미 할 수 있습니다. 인간은 벤치 마크와 비교하여 어조, 관련성 및 윤리적 고려와 같은 측면을 더 잘 평가할 수 있습니다.
  • 실제 배포 테스트 : AI 시스템은 가능한 한 실제 조건에 가까운 환경에서 테스트해야합니다. 예를 들어, 자율 주행 자동차는 예측할 수없는 트래픽 시나리오가있는 시뮬레이션 된 도로에서 시험을받을 수 있으며, 챗봇은 라이브 환경에 다양한 대화를 처리 할 수 ​​있습니다. 이를 통해 모델이 실제로 직면 할 조건에서 평가되도록합니다.
  • 견고성 및 스트레스 테스트 : 비정상적이거나 적대적인 조건에서 AI 시스템을 테스트하는 것이 중요합니다. 여기에는 왜곡되거나 시끄러운 이미지로 이미지 인식 모델을 테스트하거나 길고 복잡한 대화가있는 언어 모델을 평가하는 것이 포함될 수 있습니다. AI가 스트레스 하에서 어떻게 행동하는지 이해함으로써 실제 도전에 대비할 수 있습니다.
  • 다차원 평가 지표 : 단일 벤치 마크 점수에 의존하는 대신 정확도, 공정성, 견고성 및 윤리적 고려 사항을 포함한 다양한 메트릭에 걸쳐 AI를 평가하십시오. 이 전체적인 접근 방식은 AI 모델의 강점과 약점에 대한보다 포괄적 인 이해를 제공합니다.
  • 도메인 별 테스트 : 평가는 AI가 배포 될 특정 도메인에 맞춤화되어야합니다. 예를 들어, 의료 AI는 의료 전문가가 설계 한 사례 연구에서 테스트해야하며, 금융 시장에 대한 AI는 경제 변동 동안 안정성을 평가해야합니다.

결론

벤치 마크는 AI 연구를 발전 시켰지만 실제 성능을 포착하는 데 부족합니다. AI가 실험실에서 실제 응용 프로그램으로 이동함에 따라 AI 평가는 인간 중심적이고 전체적이어야합니다. 실제 조건에서 테스트하고, 인간의 피드백을 통합하고, 공정성과 견고성을 우선시하는 것이 중요합니다. 목표는 리더 보드를 최고가 아니라 역동적이고 복잡한 세계에서 신뢰할 수 있고 적응 가능하며 가치있는 AI를 개발하는 것입니다.

게시물 벤치 마크 너머 : AI 평가에 현실 점검이 필요한 이유 먼저 나타났습니다 Unite.ai.

Share post:

Subscribe

spot_imgspot_img

Popular

More like this
Related

Orbbec Designs gemini 435le 로봇이 더 멀리 보는 데 도움이됩니다.

새로운 Gemini 435le 스테레오 비전 패키지. 출처 : OrbbecDETROIT...

실시간 로봇 공학은 모션 계획, 시뮬레이션 용 리졸버를 출시합니다

실시간 로봇 공학은 결의로 모션 계획을 자동화하고 최적화합니다. 출처...

비난하는 자폐증 사람들을 보장하기위한 탐구

제레미는 a 음악과 자전거를 좋아하는 31 세의 자폐증. 그는...

6G 장벽을 깨기 : 연구자들이 매우 빠른 무선을 실제로 만든 방법

Keysight는 노스 이스턴 대학교 (Northeastern University)의 6G 연구원을 방문하여...