벤치마킹 큰 언어 모델 몇 가지 특이한 도전을 제시합니다. 우선, 많은 LLM의 주요 목적은 인간의 글쓰기와 구별 할 수없는 매력적인 텍스트를 제공하는 것입니다. 이 작업의 성공은 전통적으로 명령 실행 속도와 같은 프로세서 성능을 판단하는 데 사용되는 메트릭과 관련이 없을 수 있습니다.
그러나 LLM의 성능을 측정하려는 시도에 인내해야 할 확실한 이유가 있습니다. 그렇지 않으면, LLM이 시간이 지남에 따라 얼마나 더 나은지를 정량적으로 아는 것은 불가능하고, 그 자체로 실질적이고 유용한 프로젝트를 완료 할 수 있을지 추정하는 것은 불가능합니다.
대형 언어 모델은 높은 “지저분”점수가 높은 작업에 의해 더 어려워집니다.모델 평가 및 위협 연구
그것은 모델 평가 및 위협 연구에서 일하는 주요 동기였습니다. (미터). 캘리포니아 버클리에 본사를 둔이 조직은“인적 입력없이 복잡한 작업을 완료 할 수있는 프론티어 AI 시스템의 능력을 연구하고 개발 및 운영합니다.” 3 월 에이 그룹은라는 신문을 발표했다 긴 작업을 완료 할 수있는 AI 기능 측정놀라운 결론에 도달 한 것 : 그것이 고안 한 지표에 따르면, 주요 LLM의 기능은 7 개월마다 두 배가되고 있습니다. 이 실현은 두 번째 결론으로 이어집니다. 한 달 내내 40 시간의 직장. 그리고 LLM은 인간보다 훨씬 더 빨리 이러한 작업을 훨씬 빨리 할 수있을 것입니다.
LLM은 2030 년까지 괜찮은 소설을 쓸 수 있습니다
이러한 작업에는 회사를 시작하거나 소설을 작성하거나 기존 LLM을 크게 개선하는 것이 포함될 수 있습니다. AI 연구원 인 Zach Stein-Perlman은 이러한 종류의 기능을 갖춘 LLM의 가용성은“잠재적 이점과 잠재적 위험 측면에서 엄청난 지분과 함께 제공 될 것”이라고 썼다. 블로그 게시물.
Metr 작업의 핵심에는 연구자들이““작업 완료 시간 지평.”LLM이 50 %와 같은 특정 수준의 신뢰성을 완료 할 수있는 작업을 수행하는 데 평균적으로 인간 프로그래머가 취하는 시간의 양입니다. [main illustration at top] 약 7 개월의 배가 기간으로 명확한 지수 성장을 보여줍니다. Metr 연구원에 따르면 연구원들은 또한“지저분한”과제를 고려했으며,“지저분한”과제는“실제 세계”에서 더 닮은 것입니다. 메간 킨니먼트. Messier 과제는 LLM에 더 어려웠습니다 [smaller chart, above].
LLM이 자신을 향상시키는 아이디어가 당신에게 특정한 사람을 겪는다면 특이–Robocalypse 품질, Kinniment는 당신과 동의하지 않습니다. 그러나 그녀는 경고를 추가합니다.“당신은 상당히 강렬한 가속을 얻을 수 있으며,이 폭발적인 성장을 반드시 생성하지 않으면 서 제어하기가 어렵습니다.”라고 그녀는 말합니다. 그녀는 다양한 요인들이 실제로 속도를 늦출 수 있다고 덧붙였다. “우리가 매우 영리한 AI를 가지고 있었음에도 불구하고,이 발전 속도는 여전히 하드웨어와 같은 것들에 병목 현상을 일으킬 수 있습니다. 로봇 공학.”