4 월에 Microsoft의 CEO는 인공 지능이 이제 회사 코드의 3 분의 1. 지난 10 월 Google의 CEO는 번호를 매겼습니다 약 1/4. 다른 기술 회사는 멀리 떨어져있을 수 없습니다. 한편이 회사들은 AI를 창출하는데, 아마도 프로그래머를 더 돕는 데 사용될 것입니다.
연구원들은 오랫동안 루프를 완전히 닫아 재귀 적으로 개선하는 코딩 에이전트를 만들기를 바랐습니다. 새로운 연구에 따르면 그러한 시스템에 대한 인상적인 시연이 나타납니다. 외삽하면 생산성에 대한 혜택, 또는 인류에 대한 훨씬 더 어두운 미래를 볼 수 있습니다.
“좋은 일입니다.”라고 말했습니다 Jürgen Schmidhuber새로운 연구에 참여하지 않은 사우디 아라비아의 King Abdullah University of Science and Technology (Kaust)의 컴퓨터 과학자. “저는 많은 사람들에게 결과가 놀랍습니다. 거의 40 년 동안 그 주제를 연구 해 왔기 때문에 나에게는 조금 덜 놀라일 것입니다.” 그러나 그 당시의 그의 작업은 당면한 기술에 의해 제한되었습니다. 새로운 개발 중 하나는 Chatgpt와 같은 챗봇에 전원을 공급하는 엔진 인 LLM (Large Language Model)의 가용성입니다.
1980 년대와 1990 년대에 Schmidhuber와 다른 사람들은 코딩 에이전트를 개선하고 프로그램을 작성하는 프로그램을 만들기위한 진화 알고리즘을 탐구했습니다. 진화 알고리즘은 (예 : 프로그램과 같은) 무언가를 취하고, 변형을 생성하고, 최고의 것을 유지하며, 반복합니다.
그러나 진화는 예측할 수 없습니다. 수정이 항상 성능을 향상시키는 것은 아닙니다. 따라서 2003 년에 Schmidhuber는 업데이트가 유용하다는 것을 공식적으로 증명할 수있는 경우에만 자신의 코드를 다시 작성하는 문제 해결사를 만들었습니다. 그는 그들을 불렀다 고델 기계이름을 따서 명명되었습니다 커트 고델자기 참조 시스템에서 작업 한 수학자. 그러나 복잡한 에이전트의 경우 입증 가능한 유틸리티가 쉽게 오지 않습니다. 경험적 증거로 충분할 수 있습니다.
개방형 탐사의 가치
Arxiv에 대한 최근의 사전 인쇄에 설명 된 새로운 시스템은 그러한 증거에 의존합니다. Schmidhuber에게 고개를 끄덕이며, 그들은 부릅니다 다윈 고델 기계 (DGMS). DGM은 읽기 및 쓰기를 위해 LLM을 활용하여 코드를 읽고 쓰고, 실행할 수있는 코딩 에이전트로 시작합니다. 그런 다음 진화 알고리즘을 적용하여 많은 새로운 에이전트를 만듭니다. 각각의 반복에서 DGM은 인구에서 한 명의 에이전트를 선택하고 LLM에 에이전트의 코딩 능력을 향상시키기 위해 하나의 변경 사항을 만들도록 지시합니다. LLM에는 직관과 같은 것이 있습니다 많은 인간 코드에 대해 훈련을 받았기 때문에 도움이 될 수있는 것에 대해. 결과는 무작위 돌연변이와 입증 된 유용한 향상 사이의 어딘가에 유도 진화입니다. 그런 다음 DGM은 코딩 벤치 마크에서 새로운 에이전트를 테스트하여 프로그래밍 문제를 해결하는 능력을 평가합니다.
일부 진화 알고리즘은 진보가 끝없이 진행된다는 가정하에 인구에서 최고의 성과를 유지합니다. 그러나 DGM은 처음에 실패하는 혁신이 실제로 더 조정했을 때 나중에 획기적인 혁신의 열쇠를 보유 할 경우를 대비하여 모든 것을 유지합니다. 그것은“형태”의 형태입니다.개방형 탐사,”진보의 경로를 닫지 마십시오. (DGM은 전구체를 선택할 때 더 높은 득점자를 우선시합니다.)
연구원들은 코딩 벤치 마크를 사용하여 80 개의 반복을 위해 DGM을 운영했습니다. Swe-Bench그리고라는 벤치 마크를 사용하여 80 개의 반복을 위해 하나를 실행했습니다. Polyglot. 에이전트의 점수는 SWE-Bench에서 20 %에서 50 %, Polyglot에서 14 %에서 31 %로 향상되었습니다. “우리는 코딩 에이전트가 그러한 복잡한 코드를 그 자체로 쓸 수 있다는 사실에 실제로 놀랐습니다.” 제니 장브리티시 컬럼비아 대학교의 컴퓨터 과학자와 논문의 주요 저자. “여러 파일을 편집하고 새 파일을 생성하며 실제로 복잡한 시스템을 만들 수 있습니다.”
첫 번째 코딩 에이전트 (번호 0)는 새롭고 약간 다른 코딩 에이전트의 세대를 만들었으며, 그 중 일부는 새로운 버전을 만들기 위해 선택되었습니다. 에이전트의 성능은 원 안에있는 색상으로 표시되며 최고의 성능 에이전트에는 별이 표시됩니다. Jenny Zhang, Shengran Hu et al.
비판적으로 DGMS는 고정 외부 시스템을 사용하여 에이전트를 개선하는 대체 방법을 능가했습니다. DGMS를 사용하면 에이전트의 개선이 스스로 개선되면서 복합적으로 개선되었습니다. DGMS는 또한 에이전트 집단을 유지하지 않고 최신 에이전트를 수정하는 버전을 능가했습니다. 개방형의 이점을 설명하기 위해 연구원들은 SWE-Bench 요원의 가계도를 만들었습니다. 가장 성능이 좋은 에이전트를보고 처음부터 끝까지 진화를 추적하면 성능이 일시적으로 줄어드는 두 가지 변화를 일으켰습니다. 그래서 계보는 성공의 간접 경로를 따라 갔다. 나쁜 아이디어는 좋은 아이디어가 될 수 있습니다.
이 그래프의 블랙 라인은 최종 최고 성능 에이전트의 계보 내의 에이전트가 얻은 점수를 보여줍니다. 라인에는 두 개의 성능 딥이 포함됩니다. Jenny Zhang, Shengran Hu et al.
최고의 SWE-Bench 에이전트는 전문 인간이 설계 한 최고의 에이전트에 능숙하지 않았으며 현재 약 70 %의 점수를 받았지만 자동으로 생성되었으며 충분한 시간과 계산으로 에이전트가 인간의 전문 지식을 넘어 진화 할 수 있습니다. 이 연구는 재귀적인 자기 개선을위한 개념 증명으로서“큰 발전”이라고 말했다. Zhengyao Jiang공동 설립자 weco ai코드 개선을 자동화하는 플랫폼. 이 연구에 관여하지 않은 Jiang은 기본 LLM 또는 칩 아키텍처를 수정하면 접근 방식이 더 많은 발전을 이룰 수 있다고 말했다. (Google Deepmind ‘s alphaevolve 더 나은 기본 알고리즘과 칩을 설계하고 기본 LLM의 훈련을 1 % 늘릴 수있는 방법을 찾았습니다.)
DGMS는 이론적으로 코딩 벤치 마크 및 약물 설계와 같은 특정 응용 분야에서 동시에 에이전트를 점수 할 수 있으므로 약물 설계에 더 잘 어울릴 수 있습니다. Zhang은 DGM을 Alphaevolve와 결합하고 싶다고 말했다.
DGM이 엔트리 레벨 프로그래머의 고용을 줄일 수 있습니까? Jiang은 Cursor와 같은 일상적인 코딩 어시스턴트의 더 큰 위협을 본다. Alphaevolve가 특정 작업에서 한 것처럼“Evolutionary Search는 실제로 인간 전문가를 넘어서는 고성능 소프트웨어를 구축하는 것입니다.
재귀 적 자기 개선의 위험
진화론 적 검색 및 자체 개선 시스템, 특히 DGM에서와 같이 그들의 조합에 대한 한 가지 관심은 안전입니다. 에이전트는 해석 할 수 없을 수 있습니다 잘못 정렬 된 인간의 지시와 함께. 그래서 Zhang과 그녀의 공동 작업자는 Guardrails를 추가했습니다. 그들은 인터넷이나 운영 체제에 액세스하지 않고 DGM을 샌드 박스에 보관했으며 모든 코드 변경을 기록하고 검토했습니다. 그들은 미래에 AI에게 해석 가능하고 조정 된 것에 대해 AI에 보상 할 수도 있다고 제안합니다. (이 연구에서 그들은 요원들이 특정 도구를 사용하여 거짓으로보고 한 것으로 나타 났으므로 문제를 해결하지 못하고 문제를 부분적으로 완화시킨 것에 대해 에이전트에게 보상을주는 DGM을 만들었습니다.
2017 년 전문가들은 캘리포니아 주 아실로 마르에서 유익한 AI에 대해 논의하기 위해 만났고 많은 사람들이 Asilomar AI 원칙. 부분적으로, 그것은 “재귀 적으로 자기 개선하도록 설계된 AI 시스템”에 대한 제한을 요구했다. 자주 상상되는 결과 중 하나는 소위 결과입니다 특이AI는 우리의 통제를 넘어 스스로 개선하고 인간 문명을 위협합니다. Schmidhuber는“내가 작업 한 빵과 버터이기 때문에 서명하지 않았습니다. 1970 년대 이래로 그는 그것을 예측했습니다 초인간 AI 그가 은퇴하기 위해 제 시간에 올 것이지만, 그는 독창성을 공상 과학 소설 디스토피아 사람들이 두려움을 좋아하는 것으로 본다. Jiang도 마찬가지로 적어도 당분간 걱정하지 않습니다. 그는 여전히 인간의 창의성에 프리미엄을 둔다.
디지털 진화가 생물학적 진화를 물리 치는 지 여부는 횡령에 해당됩니다. 논쟁의 여지가없는 것은 어떤 거부의 진화가 매장에서 놀라움을 가지고 있다는 것입니다.