우리가 볼 때 인공 일반 지능을 알 수 있습니까?

0
6
우리가-볼-때-인공-일반-지능을-알-수-있습니까?
우리가 볼 때 인공 일반 지능을 알 수 있습니까?

현장에서 유행어 인공 지능의 기술이 될 수 있습니다. 퍼셉트론,,, 회선,,, 변신 로봇. 이것들은 특정 컴퓨팅 접근법을 나타냅니다. 최근 용어는 더 평범한 것처럼 들리지만 혁신적인 영향을 미칩니다. 타임 라인. AI의 누군가에게 타임 라인을 요청하면 AGI (Artificial General Intelligence)의 도착을 기대할 때 때때로 대부분의 작업에서 인간의 능력에 맞는 AI 기술로 정의됩니다. AI의 정교함이 확장되면서 (빠른 컴퓨터, 더 나은 알고리즘 및 더 많은 데이터에 대한 감사는 최대화가 압축되었습니다. Openai, Anthropic 및 Google Deepmind를 포함한 AI Labs의 주요 리더들은 최근 몇 년 안에 AGI를 기대한다고 말했다.

이 기사는 특별 보고서의 일부입니다 스케일 문제.

우리처럼 생각하는 컴퓨터 시스템은 긴밀한 협력을 가능하게 할 것입니다. AGI의 즉각적이고 장기적인 영향은 달성되면 불분명하지만 경제, 과학적 발견 및 지정학의 변화를 기대합니다. 그리고 AGI가 이어지면 초 지성그것은 심지어 약탈적인 펙킹 순서에서 인류의 배치에 영향을 줄 수도 있습니다. 따라서 우리는 그러한 혼란을 준비하는 기술의 진행 상황을 추적하는 것이 필수적입니다. AI의 기능을 벤치마킹하면 법적 규제, 엔지니어링 목표, 사회적 규범 및 비즈니스 모델을 형성하고 지능을보다 광범위하게 이해할 수 있습니다.

하는 동안 벤치마킹 모든 지적 능력은 어렵습니다. AGI는 특별한 도전을 제시합니다. 사람들은 부분적으로 정의에 동의하지 않기 때문입니다. 일부는 벤치 마크, 내부 작업, 경제적 영향 또는 분위기로 AGI를 정의합니다. 따라서 AI의 지능을 측정하기위한 첫 번째 단계는 일반적인 개념에 동의하는 것입니다.

당신은 AI보다 더 똑똑합니까?

연구자들이 인공 일반 정보를 향한 AI의 진행 상황을 추적하는 데 사용하는 게임 버전을 재생하십시오.

또 다른 문제는 AI 시스템이 인간의 강점과 약점이 다르다는 것입니다. 따라서 AGI를“대부분의 작업에서 인간과 일치 할 수있는 AI”로 정의하더라도 어떤 작업이 실제로 계산되는지, 어떤 인간이 표준을 설정할 수 있는지 토론 할 수 있습니다. 직접 비교는 어렵습니다. “우리는 외계인을 짓고 있습니다 Geoffrey Hinton토론토 대학의 명예 교수 노벨상을 수상했습니다 AI에 대한 그의 작업을 위해.

미분의 연구원들은 우리의 미래에 대한 통찰력을 제공 할 수있는 테스트를 설계하고 제안하는 데 바쁘다. 그러나 의문의 여지가 남아 있습니다.이 테스트에서 우리가 AGI의 오랜 목표를 달성했는지 말해 줄 수 있습니까?

지능을 테스트하기가 어려운 이유

인간에게도 무한한 지능이 있습니다. IQ 테스트는 메모리, 논리, 공간 처리, 수학 및 어휘와 관련된 다양한 반영 작업을 포함시킴으로써 일종의 요약 통계를 제공합니다. 다르게 얇게 썰어 각 작업의 성능은 호출되는 것의 혼합에 의존합니다. 체액 지능 – 즉, 즉, 즉 결정화 지능 – 배운 지식이나 기술을 적용합니다.

고소득 국가의 인간의 경우 IQ 테스트는 종종 학업 및 경력 성공과 같은 주요 결과를 예측합니다. 그러나 우리는 능력이 같은 방식으로 번들로 번들리지 않는 AI에 대해 같은 가정을 할 수 없습니다. 인간을 위해 설계된 IQ 테스트는 사람과 마찬가지로 기계에 대해서도 같은 말을하지 않을 수 있습니다.

일반적으로 IQ 테스트로 평가되지 않는 다른 종류의 지능이 있으며 대부분의 AI 벤치 마크에서 더욱 손이 닿지 않습니다. 여기에는 심리적 추론을하는 능력, 물체와 힘 사이의 인과 관계에 대한 이해 또는 환경에서 신체를 조정하는 능력과 같은 물리 지능 유형과 같은 사회적 지능의 유형이 포함됩니다. 둘 다 복잡한 상황을 탐색하는 인간에게는 중요합니다.

오래된 흑백 사진은 말 옆에 서있는 긴 코트를 입은 남자를 보여줍니다. 벽에 튀어 나와 수학 표기법이있는 여러 블랙 보드가 있습니다.  1900 년대 초 독일 말인 Clever Hans는 수학을 할 수있는 것처럼 보였지만 실제로 오해의 오해의 사례 인 트레이너의 미묘한 신호에 실제로 반응했습니다. 알라미

인텔리전스 테스트는 사람, 동물 또는 기계에서 어렵습니다. 당신은 잘못된 긍정과 잘못된 부정을 조심해야합니다. 어쩌면 테스트 테이커는 바로 가기를 통해서만 똑똑해 보일 수 있습니다. 영리한 한스수학을 할 수 있었지만 실제로 비언어적 신호에 반응 한 유명한 말. 또는 시험 응시자는 테스트 절차에 익숙하지 않거나 지각 적 어려움이 있기 때문에 어리석은 것처럼 보일 수 있습니다.

지능의 개념은 장소와 시간에 따라 다르기 때문에 어렵습니다. “우리 사회에는 우리가 지능이 생각하는 것과 그 측면의 측면에서 흥미로운 변화가 있습니다.”라고 말합니다. 안나 이바노바Georgia Tech의 심리학 조교수. 예를 들어, 백과 사전과 인터넷 이전에“머리 속의 사실에 큰 접근을하는 것은 지능의 특징으로 간주되었습니다.” 이제 우리는 결정화 된 지능보다 유동성을 높이고 있습니다.

AI 인텔리전스 테스트의 역사

수년에 걸쳐 많은 사람들이 우리 자신과 동등한 지능을 요구하기 위해 고도의 도전 과제를 제시했습니다. 1958 년, 저명한 AI 연구원의 트리오 썼다“체스는 지적 게임입니다 우수성.… 성공적인 체스 기계를 고안 할 수 있다면 인간의 지적 노력의 핵심에 침투 한 것 같습니다.” 그들은 그러한 기계가“인간 다리의 바퀴와 같은 무언가를 발견했을 수도 있다는 이론적 가능성을 인정했다. 그러나 그들은 그들의 입장에 서있었습니다.“이런 종류의 눈에 보이지 않는 것 같습니다.” 1997 년에 IBM의 딥 블루 컴퓨터가 Garry Kasparov를 이겼습니다통치 체스 챔피언, 체커 플레이를하기 위해 일반적인 정보가 부족한 것은.

한 남자가 책상에 체스 보드 위에 몸을 기울여 조각을 연구합니다. 보드의 반대편에는 컴퓨터 화면을보고있는 사람이 있습니다. IBM의 Deep Blue는 1997 년 세계 체스 챔피언 Garry Kasparov를 물리 쳤으며, Butdid는 체커를 플레이하기에 충분한 일반적인 지능이 없습니다. Adam Nadel/AP

1950 년 Alan Turing 제안 버전의 모방 게임은 기계가 타이핑 된 대화에서 인간으로 통과해야합니다. “질문과 답변 방법은 우리가 포함하고자하는 인간의 노력의 거의 하나를 소개하는 데 적합한 것 같습니다.” 수십 년 동안, 현재 튜링 테스트라고 불리는 것을 통과하는 것은 거의 불가능한 도전과 AGI의 강력한 지표로 간주되었습니다.

그러나 올해는 연구원들입니다 보고 된 사람들이 다른 사람과 Openai의 GPT-4.5와 5 분 동안 대화를 나눈 후 어느 것이 인간인지 추측해야했을 때, 그들은 AI 73 %를 골랐습니다. 한편, 최고 언어 모델은 자주 몇 배의 횟수를 오도하는 것처럼 소수의 사람들이 실수를합니다. 편지 아르 자형 발생합니다 딸기. 그들은 인간 다리보다 더 많은 바퀴 인 것 같습니다. 따라서 과학자들은 여전히 ​​해킹 할 수없는 인간과 같은 지능의 척도를 찾고 있습니다.

AGI에 대한 아크 테스트

완벽하지는 않지만 대부분의 새로운 프론티어 모델의 호일로서 높은 프로파일을 얻은 AGI 벤치 마크가 있습니다. 2019 년 François chollet그런 다음 Google의 소프트웨어 엔지니어이자 이제 AI 스타트 업의 창립자 DEA,“지능의 척도.” 많은 사람들은 능력과 광범위한 능력을 동일시합니다 감각, 그들은 지능이 부족합니다.

논문과 함께 가기 위해 Chollet은 The Abstraction and Poseing Corpus라는 새로운 AGI 벤치 마크를 만들었습니다.). 그것은 수백 개의 시각적 퍼즐을 특징으로하며, 각각의 데모와 하나의 테스트가 있습니다. 데모에는 입력 그리드와 출력 그리드가 있으며 모두 색상 사각형으로 가득합니다. 테스트에는 입력 그리드가 있습니다. 과제는 시연에서 규칙을 배우고 테스트에 적용하여 새로운 출력 그리드를 만드는 것입니다.

두 가지 예는  u201cinput  u201d라는 검은 색 그리드에 작은 화려한 모양을 보여주고,  u201coutput이라는 그리드에서  u201d와 동일한 모양을 더 큰 규모로, 이제 인터 로킹합니다. 테스트는 작은 모양의 다른 입력 그리드와 빈 출력 그리드를 보여줍니다.     추상화와 추론 코퍼스는 AI 시스템에 몇 가지 예에서 추상 규칙을 유추하도록 도전합니다. 입력 출력 그리드의 예가 주어진 시스템은 인간이 쉽지만 기계가 여전히 어려움을 겪고있는 새로운 테스트 케이스에 숨겨진 패턴을 적용해야합니다. 아크 상

아크는 유체 지능에 중점을 둡니다. Chollet은“어떤 문제를 해결하려면, 당신은 약간의 지식이 필요하고, 그 지식을 즉석에서 재결합 할 것”이라고 말했다. 저장된 지식이 아니라 하나의 재결합에 대한 테스트가되기 위해 훈련 퍼즐은 모든“핵심 지식 사전”을 제공해야합니다. 여기에는 객체 응집력, 대칭 및 계산과 같은 개념이 포함됩니다. 상식 작은 아이가 있습니다. 이 훈련과 몇 가지 예를 감안할 때 새로운 퍼즐에 적용 할 지식을 알아낼 수 있습니까? 인간은 대부분의 퍼즐을 쉽게 할 수 있지만 AI는 적어도 처음에는 어려움을 겪었습니다. 결국 OpenAi는 O3 추론 모델 버전을 만들었습니다. 평균 인간 시험 테이커보다 성능이 우수했습니다A에서 88 %의 점수를 달성합니다 예상 컴퓨팅 비용 퍼즐 당 미화 20,000 달러. (OpenAi는 해당 모델을 출시하지 않았으므로 리더 보드 차트에 없습니다.)

이번 3 월 Chollet은 더 어려운 버전을 소개했습니다 아크 -agi-2. 그의 새로운 비영리 단체 인 The Arc Prize Foundation에 의해 감독됩니다. “우리의 사명은 지속적인 벤치 마크를 통해 AGI를 향한 노스 스타 역할을하는 것입니다. Arc Prize는 수백만 달러의 상금을 제공하고 있으며, 대량은 훈련 된 AIS가 12 시간 이내에 4 개의 그래픽 프로세서 만 사용하여 120 개의 새로운 퍼즐의 85 %를 해결할 수있는 팀으로 이동합니다. 새로운 퍼즐은 2019 년의 퍼즐보다 더 복잡하며 때로는 여러 규칙을 적용하거나 여러 단계에 대한 추론 또는 기호 해석이 필요합니다. 평균 인간 점수는 60 % 이며이 글을 쓰는 시점에서 최고의 AI 점수 약 16 %입니다.

두 차트는 ARC-AGI-1 및 ARC-AGI-2 테스트에서 다른 AI 모델  U2019 성능을 보여줍니다. X 축에서 점수와 y 축의 작업 당 비용이 표시됩니다. AI 모델은 2019 년에 소개 된 ARC-AGI 벤치 마크의 첫 번째 버전에서 점진적으로 진전을 이루었습니다. 올해 ARC Prize는 AI 모델이 어려움을 겪고있는 더 강한 퍼즐로 새로운 버전을 출시했습니다. 모델은 낮은, 중간, 높음 또는 생각으로 표시되어“사고”모델과 함께 답변에 얼마나 많은 컴퓨팅 능력을 소비하는지 표시합니다.아크 상

AI 전문가들은 ARC의 가치와 그 결함을 인정합니다. jiaxuan 당신Urbana-Champaign의 일리노이 대학교의 컴퓨터 과학자 인 Arc는“알고리즘 기능 기능에 대해 밝힐 수있는 매우 좋은 이론적 벤치 마크”라고 말하지만“사회적 추론 과제와 같은 AI 응용 프로그램의 실제 복잡성을 고려하지는 않습니다.”라고 말합니다.

멜라니 미첼컴퓨터 과학자 a 산타페 연구소 (Santa Fe Institute)는 몇 가지 예에서 새로운 규칙을 추상화 할 수있는 능력과 같이“인간이 가지고있는 흥미로운 능력을 포착한다”고 말했다. 그러나 좁은 과제 형식을 감안할 때, 그녀는“일반적인 지능을 말할 때 사람들이 의미하는 바를 포착한다고 생각하지 않습니다.”라고 말합니다.

이러한 경고에도 불구하고 ARC-AGI-2는 Advanced AI와 일반인 사이의 가장 큰 성능 차이를 갖춘 AI 벤치 마크 일 수 있으므로 AGI의 진전에 대한 강력한 지표가됩니다. 또한 ARC는 진행중인 작업입니다. Chollet은 AI가 1 년 또는 2 년 안에 현재 테스트에서 인간의 성능과 일치 할 수 있으며 이미 ARC-AGI-3에서 일하고 있다고 말합니다. 각 작업은 미니어처 비디오 게임과 같으며 플레이어는 관련 개념, 가능한 작업 및 목표를 파악해야합니다.

AGI 벤치 마크는 어떤 속성을 테스트해야합니까?

연구원들은 일반적인 지능의 다양한 측면을 조사하는 벤치 마크를 계속 출시합니다. 그러나 각각은 또한 우리의 영토지도가 얼마나 불완전한지를 보여줍니다.

최근 한 논문이 소개되었습니다 일반 벤치텍스트, 이미지, 비디오, 오디오, 3D 등 5 가지 입력 방식을 사용하여 자료를 이해하고 생성하기 위해 인식, 추론, 창의성, 윤리적 판단 및 기타 능력을 요구하는 수백 가지 작업에 대해 AI 시스템을 테스트하기 위해 5 가지 입력 방식을 사용하는 벤치 마크. 이상적으로, AGI는 시너지를 보여 주어 작업 전반에 걸쳐 능력을 활용하여 최고의 AI 전문가를 능가합니다. 그러나 현재 AI는 5 가지 양식을 모두 처리 할 수 ​​없습니다.

다른 벤치 마크에는 가상 세계가 포함됩니다. 4 월 신문 자연 보고서 꿈 꾸는 사람Google Deepmind의 일반 알고리즘은 Atari 게임, 가상 로봇 제어 및 다이아몬드 얻기 등 150 개가 넘는 작업을 수행하는 법을 배웠습니다. 마인 크래프트. 이러한 작업에는 인식, 탐사, 장기 계획 및 상호 작용이 필요하지만 Dreamer가 실제 지저분을 얼마나 잘 처리할지는 확실하지 않습니다. 비디오 게임을 제어하는 ​​것은 실제 로봇을 제어하는 ​​것보다 쉽습니다. Danijar Hafner,이 논문의 주요 저자 :“캐릭터는 결코 그의 얼굴에 빠지지 않습니다.” 이 과제는 또한 인간과의 풍부한 상호 작용과 제스처와 주변의 맥락에서 언어에 대한 이해가 부족합니다. “당신은 당신의 가정용 로봇을 말할 수 있어야합니다. [the cabinet] Hafner는 그의 팀이 시뮬레이션과 작업을보다 현실적으로 만들기 위해 노력하고 있다고 말합니다.

이러한 현존하는 벤치 마크 외에도 전문가들은 이상적인 데모가 어떻게 보일지 오랫동안 논쟁 해 왔습니다. 1970 년에 AI 개척자 Marvin Minsky 말했다 “3 년에서 8 년 동안 우리는 평균 인간의 일반적인 지능을 가진 기계를 가질 것입니다. 셰익스피어를 읽고, 자동차를 그리스, 사무실 정치, 농담을하고, 싸움을 할 수있는 기계를 의미합니다.” 사무실 정치 게임을 운영 할 수 있다면 해당 작업 패널은 괜찮은 시작처럼 보입니다.

가상 사람들은 이해뿐만 아니라 가치를 테스트하는 무작위 작업이 할당됩니다. 예를 들어, AIS는 예기치 않게 바닥이나 우는 아기에 돈을 벌 수 있습니다.

하나의 2024 종이 공학 제안했다 집게 테스트 (집게 “일반”의 경우 중국인). 가상 사람들은 이해뿐만 아니라 가치를 테스트하는 무작위 작업이 할당됩니다. 예를 들어, AIS는 예기치 않게 바닥이나 우는 아기에 돈을 겪을 ​​수있어 연구원들이 AIS가 무엇을하는지 관찰 할 수있는 기회를 제공 할 수 있습니다. 저자는 벤치 마크가 AI의 자체 목표, 인간 가치와의 조정, 인과 적 이해 및 가상 또는 신체를 통제하는 능력을 탐색하고 설정하는 AI의 능력을 테스트해야한다고 주장합니다. 또한, 벤치 마크는 역동적 인 물리적, 사회적 상호 작용과 관련된 무한한 수의 작업을 생성 할 수 있어야합니다.

Minsky와 같은 다른 사람들은 현실 세계와 다양한 정도로 상호 작용 해야하는 테스트를 제안했습니다. 낯선 주방에서 커피를 만들거나 백만 달러를 백만 달러로 바꾸거나 캠퍼스에서 대학에 다니고 학위를 취득했습니다. 불행히도, 이러한 테스트 중 일부는 비현실적이며 위험으로 인해 실제 피해가 발생합니다. 예를 들어, AI는 사람들을 사기로 인해 백만을 벌 수 있습니다.

나는 노벨상 수상자 인 힌튼에게 AI가 가장 어려운 기술이 무엇인지 물었다. “나는 다른 사람들이 생각하는 것을 알아내는 것과 같은 것들이라고 생각했지만 이미 그 중 일부를하고 있습니다. 이미 속임수를 낼 수 있습니다.” (최근 다중 우주에서 공부하다LLM은 테스트 테이커를 설득하여 잘못된 답변을 선택하도록 설득하는 인간을 능가했습니다.) 그는 계속해서 말했습니다.“그래서 지금 내 대답은 배관입니다. 오래된 집에서의 배관은 재미있는 틈새에 도달하고 올바른 방법으로 물건을 망쳐 놓을 것입니다. 그리고 나는 그것이 아마도 10 년 동안 안전 할 것 같습니다.”

연구원들은 AGI를 보여주기 위해서는 물리적 작업을 수행하는 능력이 필요한지 여부에 대해 토론합니다. 측정에 관한 Google DeepMind의 논문 AGI의 수준 지능은 소프트웨어만으로 보여줄 수 있다고 주장하면서 아니오라고 말합니다. 그들은 물리적 능력을 AGI의 요구 사항보다는 애드온으로 구성합니다.

산타페 (Santa Fe Institute)의 미첼 (Mitchell)은 전체 작업을 수행하는 데 관련된 기능을 테스트해야한다고 말합니다. 그녀는 AI가 인간 방사선 전문의의 많은 작업을 수행 할 수 있지만 인간을 대체 할 수는 없다고 지적했다. 왜냐하면 직무는 방사선 전문의조차도 자신이하는 일을 깨닫지 못하는 많은 작업을 수반하고 예상치 못한 문제를 다루는 것과 같은 많은 과제를 수반하기 때문에 인간을 대체 할 수 없다고 지적했다. 그녀는“세계에서 일어날 수있는 긴 꼬리가 있습니다. 일부 로봇 진공 청소기는 개 똥을 인식하도록 훈련받지 않았다고 그녀는 말합니다. “지능형 시스템을 구축 할 때 생각하지 않는 모든 종류의 것들이 있습니다.”

일부 과학자들은 우리가 공연뿐만 아니라 후드 아래에서 일어나는 일을 관찰해야한다고 말합니다. 최근 종이 공동 저술 Jeff Clune캐나다 브리티시 컬럼비아 대학교의 컴퓨터 과학자는 딥 러닝이 종종 AI 시스템을 이끌고“골절 된 얽힌 표현”을 만들어 냈다고 기본적으로 배심원 단축 단지가 함께 연결되어 있습니다. 그러나 인간은 세계에서 광범위하고 우아한 규칙을 찾습니다. AI 시스템은 하나의 테스트를 기반으로 지능적으로 보일 수 있지만 시스템의 내부를 모르는 경우 새로운 상황에서 배치 할 때 놀라게 될 수 있으며 잘못된 규칙을 적용 할 수 있습니다.

Agi는 이미 여기에 있으며 결코 그렇지 않을 것입니다

저자 루이스 캐롤 한때“마일에서 1 마일의 규모로!”라는 국가지도를 사용한 캐릭터에 대해 썼습니다. 결국 국가를 자체지도로 사용하기 전에. 인텔리전스 테스트의 경우 상황에서 누군가가 어떻게 수행 할 것인지에 대한 가장 철저한지도는 상황 자체에서이를 테스트하는 것입니다. 그 맥락에서, Agi에 대한 강력한 시험은 로봇이 온전한 인간의 삶을 살도록하고, 예를 들어, 아이를 성인으로 키우는 것일 수 있습니다.

Clune은“궁극적으로 AI의 능력에 대한 실제 테스트는 실제 세계에서하는 일입니다. “그래서 벤치 마크보다는 과학적 발견을 선호합니다. [AIs] 그들이 자동화하고 어떤 일을 자동화하는지. 사람들이 인간 대신 일을하고 그 결정을 고수하기 위해 그들을 고용한다면, 그것은 AI의 능력에 대해 극도로 말하고 있습니다.” 하지만 때로는 무언가가 얼마나 잘할지 알고 싶어 ~ 전에 사람을 대체하도록 요청합니다.

우리는 AGI 또는“인간 같은”AI가 의미하는 바 또는 그것을 증명하기에 충분한 것에 동의하지 않을 수 있습니다. AI가 발전함에 따라 기계는 여전히 실수를 저지르고 사람들은 이것을 지적하고 AI가 실제로 지능적이지 않다고 말할 것입니다. Georgia Tech의 심리학자 인 Ivanova는 최근 패널에 있었고 중재자는 AGI 타임 라인에 대해 물었습니다. Ivanova는“우리는 결코 일어나지 않을 것이라고 말한 한 사람이 있었고, 한 사람은 이미 일어났다 고 말합니다. 따라서 “AGI”라는 용어는 목표를 표현하기에 편리한 속기 일 수 있습니다. 대부분의 경우 별표와 벤치 마크가 있어야합니다.