많은 사람들의 주요 목적 큰 언어 모델 (LLMS)는 가능한 한 가깝게 인간의 글쓰기와 구별 할 수없는 매력적인 텍스트를 제공하고 있습니다. 그리고 그 안에 전통적인 벤치 마크를 사용하여 LLM의 상대적 성능을 측정하기가 어려운 주요 이유가 있습니다. 작문의 품질이 전통적으로 지시 실행 속도와 같은 프로세서 성능을 측정하는 데 사용되는 메트릭과 반드시 관련이있는 것은 아닙니다.
그러나 캘리포니아 버클리의 연구원들 ( 모델 평가 및 위협 연구) 독창적 인 아이디어를 생각해 냈습니다. 먼저 복잡성이 다양한 일련의 작업을 식별하고 인간 그룹이 각 작업을 완료하는 데 걸리는 평균 시간을 기록하십시오. 그런 다음 LLM 버전이 어느 정도의 신뢰성으로 작업을 성공적으로 완료하는 경우를 지적하면서 다양한 버전의 LLM이 동일한 작업을 완료하도록합니다. 결과 데이터의 플롯은 시간이 지남에 따라 LLM의 연속 세대가 더 길고 길고 (점점 더 복잡한) 작업을 안정적으로 완료 할 수 있음을 확인합니다.
놀랍지 않습니다. 그러나 충격은 LLM이 더 어려운 작업을 안정적으로 완성하는 능력의 향상이 지수약 7 개월의 두 배가있는 기간.
IEEE 스펙트럼 손을 뻗었다 메간 킨니먼트저자 중 하나 Metr 연구 논문 이 작업과 놀라운 의미를 설명합니다.
LLM 성능 지표 평가
이 결과를 얻을 것이라고 의심 했습니까?
Megan Kinniment : 나는 적어도 개인적으로 우리가 우리처럼 지수를 분명히 기대하지 않았다. 그래도 모델은 확실히 빨리 나아지고 있습니다. 따라서 빠른 발전률은 전적으로 예상치 못한 것은 아닙니다.
논문에서 지적했듯이, 항상 미래를보고 외삽하는 것은 항상 위험합니다. 그러나, 당신은이 계속 될 가능성이 있다고 제안합니다. 즉, 2030 년까지 우리는 우리가 한 달 동안의 작업이 가장 진보 된 대형 언어 모델의 능력 안에있는 것을 살펴볼 것임을 의미합니다.
Kinniment : 그것을 보자. 한 달에 우리는 약 167 근무 시간을 의미하므로 [human] 한 달 만에 근무 시간. 그리고 그것은 50 % 신뢰성입니다. 그러나 더 긴 작업은 일반적으로 실제로 유용하기 위해 더 높은 신뢰성이 필요한 것 같습니다. 그래서 그것은 실습, 실제, 경제적 영향을 예측하는 것만 큼 강렬하지 않게 만드는 것입니다.
이 예측이 이루어지기 위해 계속해야 할 많은 것들이 있습니다. 하드웨어는 대략 개선되는 속도로 계속 개선해야합니다. 소프트웨어는 계속 개선해야합니다. 최근 몇 년 동안 발생한 숨막히는 클립에서 교육을 계속하기 위해 교육 데이터와 그 교육 데이터의 충분한 교육 데이터가 있어야합니다.
Kinniment : 우리가 찾은 예측과 날짜는 작업 스위트에서 볼 수있는 트렌드를 외삽하는 것입니다. [The trends are] 실제 요소 또는 계산 스케일링 변경을 고려하지 않습니다.
대형 언어 모델이 어떻게 든 50 % 신뢰성으로 167 시간 유형의 작업을 완료 할 수있는 능력을 달성 할 수 있다면, 현재 큰 언어 모델에 대한 기능 영역에 넣은 것들의 종류는 무엇입니까?
Kinniment : 글쎄, 우리가 자주 생각하는 큰 것은 AI R & D 연구 자체를 가속화하는 것입니다. 더 나은 모델을 만들 수있는 회사의 능력을 가속화하는 모델을 만들 수있는 한, AI 기능이 실제로 매우 빠르게 발전하는 상황에서 끝날 수 있습니다.
AI의 기하 급수적 성장은 인류를위한 의미입니다
당신이 묘사하는 것은 아이디어를 연상시키는 것입니다. 특이점당신이 인간의 도움을받지 않고 다른 AI를 스스로 만드는 AI가있는 곳.
Kinniment : 나는 당신이 상당히 강렬한 가속을 얻을 수 있고,이 크게 폭발적인 성장을 일으키지 않고 반드시 통제하기 어려운 것을 의미있게 만들 수 있다고 생각합니다. 실제로 속도를 늦추는 다양한 병목 현상이 있다고 생각해야 할 이유가 있습니다. 우리가 매우 영리한 AI를 가지고 있었음에도 불구하고,이 발전 속도는 여전히 하드웨어 및 로봇과 같은 것들에 병목 현상을 일으킬 수 있습니다. 그러나 그렇습니다. 특이점은이 모든 부문과 관련된 아이디어입니다.
상황은 아주 빨리 갈 수 있지만 특이점이나 아무것도 아닌 것과는 다릅니다. [AI-development rates] 특이점에 비해 온화한 것은 세계가 어떻게 적응 해야하는지에 대해 여전히 매우 강렬 할 수 있습니다.
당신은 논문에서 일부 큰 언어 모델이 실수로부터 적응하고 개선하는 능력이 향상되고있는 것으로 보입니다.
Kinniment : Chatgpt 이후 실제로는 비교적 점진적이라고 생각합니다. 그들은 붙어있을 가능성이 적습니다. 그들은 일이 작동하지 않을 때 전략을 바꾸는 데 조금 더 낫지 만 약간 타격을 입거나 놓치게됩니다. 그리고 그들은 예전보다 일을하는 것이 훨씬 더 낫고 도구를 사용하는 데 더 나은 것보다 훨씬 낫습니다. 그러나 그것은 큰 변화를 일으키지 않은 몇 가지 근본적인 측면이있는 것처럼 보입니다. 새 모델을 얻을 때보고 싶은 한 가지는 각 작업마다 모델에 여러 가지를 제공합니다. 토큰그것이 말할 수있는 많은 단어. 그리고 만약 당신이 그들에게 일을하기 위해 점점 더 많은 시간 이상을주는 토큰을 상상할 수 있다면, 그것이 성공할 가능성이 얼마나 영향을 미치는가? 그리고 기본적으로, 우리가 보는 것은 그것들이 매우 강하게 고원입니다. 당신이 그들에게 더 많은 토큰을주는 지점이 있으며 실제로 도움이되지 않습니다. 그리고 각각의 새로운 모델에 대해, 그 고원은 조금 더 높아집니다.
Megan Kinniment는 LLM 성능에 대한 연구 결과를 발표 한 Metr 팀에있었습니다.메간 킨니먼트
인간은 또한 수익이 줄어들고 있다고 생각합니다. 그러나 인간에게 무언가를 할 수있는 시간을 많이 주면 특히 여러 인간이 있다면 더 나은 일을 할 것입니다. 그리고 나는 절대 점수가 낮더라도 일을 계속하고 개선 할 수있는 것처럼 보였던 큰 언어 모델에 깊은 인상을 받았다고 생각합니다. 그것은 큰 문제 일 수 있습니다.
당신은“지저분”점수가 높은 작업에서 모델이 더 나빠 졌다는 것을 알게되었습니다. 이 상황이 바뀌고 있다는 데이터에서 얻은 신호가 있습니까? 다시 말해, 그 모델이 더 높은 지저분을 가진 작업을 처리하는 능력이 더 커질 수 있습니까?
Kinniment : 혼란은 내가 우리의 과제가 실제 세계와 얼마나 비현실적인지에 대한 다소 정량적 인 척도를 얻으려고 노력한 척도였습니다. 그리고 우리의 과제의 대부분은 그렇게 지저분하지 않습니다. 16 포인트 스케일입니다. 평균은 약 3이며, 가장 지저분한 작업은 16 명 중 약 8입니다.
Kinniment : 자원 제한이 많은 간첩과 같은 것. 그것은 매우 처벌입니다. 당신은 당신을 적극적으로 최적화하는 에이전트가 있습니다. 엉망이되기 쉽습니다. 소설입니다.
Kinniment : Openai 출판 O3그리고 O3는 추세를 감안할 때 예상보다 약간 더 능력이있었습니다. 그래서 우리는 다른 모델을 측정하는 측면에서 약간의 후속 조치를 취하고 있습니다. 우리는 AI 시스템의 AI 개발 및 치명적인 위험에 대해 세상에 알리는 데 계속 집중하고 싶습니다.
고급 AI의 치명적인 위험
AI의 가장 치명적인 위험은 무엇입니까? 내 마음에 오는 사람들은 AI가 최고의 능력을 갖게되면 고용에서 막대한 탈구입니다.
Kinniment : 우리가 치명적인 위험에 대해 이야기 할 때, 우리는 단지 대량 실업에 대해 이야기하는 것이 아닙니다. 우리는 이와 같은 것들에 대해 이야기하고 있습니다. 만약 모든 사람이 실업자가되었거나 대다수의 사람들을 위해 인간 노동자가 필요하지 않은 경우, 군대를 유지하기 위해 인간 노동자가 필요하지 않을 수도 있습니다. 그것은 누군가가 쿠데타를 더 쉽게 수행 할 수있게 해줄 수 있습니다. 또는 데이터 센터에 많은 양의 천재가 있다면 매우 강력한 사람이 될 것입니다. 군사 하드웨어를 생산하는 데 사용한다면, 우리는 집중력을 얻을 수 있으며 더 이상 민주주의 국가가 없을 수도 있습니다.
이 모든 것은 어떤 형태의 의식없이 일어날 것입니다. 이것들은 체계와 줄거리 및 계획의 능력을 갖는 기계이지만,이를 수행하는 인간의 능력을 특징 짓는 종류의 의식이 없을 것입니다. 이를 위해 의식이 필요하지 않습니다.
Kinniment : 의식은 어려운 문제입니다. 특정 행동에 의식이 필요한지 확실하지 않습니다. 내 급여 등급보다 약간 높습니다. 나는 또한 그들이이 시점에서 그들이 의식 할 수 있다는 것이 미쳤다고 생각합니다. 그들은 매우 지능적 일 것입니다.
그래서 당신은 그들이 미래의 어느 시점에서 의식이있을 수 있다고 생각합니까?
Kinniment : 내 말은, 그들이 당신과 나만큼 지능적이라면, 그것은 미친 것처럼 보이지 않습니다. 그들에게는 미친 것처럼 보이지 않으며, 그들에게는 미친 것 같지 않습니다.