방금 출시된 AI 안전지수 6개 주요 AI 기업의 위험 평가 노력 및 안전 절차에 대해 등급을 매겼습니다. 최고 등급은 인류학전체 점수는 C입니다. 나머지 5개 회사(Google DeepMind, Meta, OpenAI, xAI, Zhipu AI)는 D+ 이하 등급을 받았으며 Meta는 완전히 실패했습니다.
“이것의 목적은 누구에게도 부끄러움을 주려는 것이 아닙니다.”라고 말합니다. 맥스 테그마크MIT에서 물리학 교수 그리고 회장 미래생명연구소보고서를 발표했습니다. “기업이 발전할 수 있도록 인센티브를 제공하는 것입니다.” 그는 회사 경영진이 대학이 US News 및 World Report 순위를 보는 것처럼 이 지수를 보기를 바라고 있습니다. 그들은 성적을 받는 것을 좋아하지 않을 수도 있지만, 성적이 공개되어 주목을 받으면 내년에는 더 나은 성적을 내고 싶은 마음을 갖게 될 것입니다.
그는 또한 해당 회사의 안전팀에서 일하는 연구원들을 돕고 싶어합니다. 회사가 안전 표준을 충족해야 한다는 외부 압력을 느끼지 않는 경우 Tegmark는 다음과 같이 말합니다. “그러면 회사의 다른 사람들은 당신을 귀찮은 사람, 즉 속도를 늦추고 기계에 자갈을 던지려는 사람으로 생각할 것입니다.” 그러나 안전 연구원들이 갑자기 회사의 평판을 높이는 책임을 맡게 된다면 그들은 자원과 존경, 영향력을 얻게 될 것입니다.
Future of Life Institute는 인류가 강력한 기술로 인해 실제로 나쁜 결과를 겪지 않도록 돕는 데 전념하는 비영리 단체이며 최근 몇 년간 AI에 중점을 두었습니다. 2023년에 그룹은 “일시 정지 편지”라고 AI 연구소에 요청했습니다. 개발을 일시 중지하다 6개월 동안 고급 모델을 개발하고 그 시간을 안전 표준 개발에 사용합니다. 엘론 머스크(Elon Musk)와 스티브 워즈니악(Steve Wozniak) 같은 유명 인사들이 서한에 서명했지만(현재까지 총 33,707명이 서명했습니다), 회사들은 멈추지 않았습니다.
이 새로운 보고서는 문제의 회사에서 무시될 수도 있습니다. IEEE 스펙트럼 의견을 듣기 위해 모든 회사에 연락했지만 구글 딥마인드 “이 지수는 Google DeepMind의 AI 안전 노력 중 일부를 통합하고 업계에서 채택한 벤치마크를 반영하지만 AI 안전에 대한 우리의 포괄적인 접근 방식은 포착된 것 이상으로 확장됩니다. 우리는 기술 발전과 함께 안전 조치를 지속적으로 발전시키기 위해 최선을 다하고 있습니다.”
AI 안전지수가 기업을 평가한 방법
이 지수는 위험 평가, 현재 피해, 안전 프레임워크, 실존적 안전 전략, 거버넌스 및 책임, 투명성 및 의사소통 등 6가지 범주에서 기업의 성과를 평가했습니다. 관련 연구 논문, 정책 문서, 뉴스 기사, 업계 보고서 등 공개적으로 이용 가능한 정보를 활용했습니다. 심사위원들도 각 업체에 설문지를 보냈으나, xAI 그리고 중국회사 지푸 AI (현재 가장 유능한 중국어 LLM을 보유하고 있음)이 이를 작성하여 두 회사의 투명성 점수를 높였습니다.
등급은 UC Berkeley 교수와 같은 유명 인사를 포함하여 7명의 독립적인 검토자가 부여했습니다. 스튜어트 러셀 그리고 튜링상 수상자 조슈아 벤지오그는 초지능 AI가 다음과 같은 결과를 가져올 수 있다고 말했습니다. 실존적 위험 인류에게. 검토자에는 카네기 멜론 대학교(Carnegie Mellon University)와 같이 알고리즘 편견 및 독성 언어와 같은 AI의 단기 피해에 초점을 맞춘 AI 리더도 포함되었습니다. 아투사 카시르자데 그리고 스네하 레바누르창립자 정의를 인코딩하다.
그리고 전반적으로 리뷰어들은 깊은 인상을 받지 못했습니다. Russell은 “AI 안전 지수 프로젝트의 조사 결과에 따르면 AI 회사에서 ‘안전’이라는 주제로 많은 활동이 이루어지고 있지만 아직 그다지 효과적이지는 않다는 것을 알 수 있습니다. “특히 현재 활동 중 어느 것도 안전에 대한 정량적 보장을 제공하지 않습니다. 상상할 수 없을 정도로 방대한 양의 데이터에 대해 훈련된 거대한 블랙박스를 통해 AI에 대한 현재 접근 방식을 고려할 때 그러한 보장을 제공하는 것도 불가능해 보입니다. 그리고 이러한 AI 시스템이 커질수록 더욱 어려워질 것입니다. 즉, 현재의 기술 방향으로는 필요한 안전 보장을 결코 지원하지 못할 가능성이 있으며, 이 경우 실제로는 막다른 골목에 이르게 됩니다.”
Anthropic은 전체적으로 가장 좋은 점수와 가장 좋은 특정 점수를 얻었으며 현재 피해에 대한 작업으로 유일한 B-를 받았습니다. 보고서는 Anthropic의 모델이 주요 안전 벤치마크에서 가장 높은 점수를 받았다고 지적합니다. 회사는 또한 “책임 있는 확장 정책“ 회사가 자사 모델이 치명적인 피해를 입힐 가능성이 있는지 평가하고 회사가 너무 위험하다고 판단하는 모델을 배포하지 않도록 의무화했습니다.
6개 회사 모두 특히 사업 규모가 나빴습니다. 실존적 안전 전략. 검토자들은 모든 회사가 구축 의사를 선언했다고 언급했습니다. 인공일반지능 (AGI)이지만 Anthropic, Google DeepMind 및 OpenAI만이 AGI가 인간의 가치와 일치하도록 보장하기 위한 모든 종류의 전략을 명확하게 표현했습니다. “진실은 우리보다 훨씬 똑똑한 새로운 종을 통제하는 방법을 아는 사람이 아무도 없다는 것입니다.”라고 Tegmark는 말합니다. “검토 패널은 심지어 [companies] 일종의 초기 단계 전략이 있었지만 적절하지 않았습니다.”
이 보고서는 AI 회사나 정책 입안자를 위한 권장 사항을 발행하지 않지만, Tegmark는 이번 조사 결과가 AI 제품이 시장에 출시되기 전에 승인하는 미국 식품의약국(FDA)과 동등한 정부 기관인 규제 감독의 필요성을 분명히 보여주고 있다고 강하게 느꼈습니다. .
Tegmark는 “이 회사의 리더들은 마음이 아무리 친절하더라도 누구도 벗어날 수 없는 바닥을 향한 경쟁에 갇혀 있다고 생각합니다.”라고 말합니다. 오늘날 기업들은 경쟁업체가 시장에서 앞서는 것을 원하지 않기 때문에 안전 테스트 속도를 늦추고 싶어하지 않는다고 그는 말합니다. “반면에 안전 기준이 있다면 누가 먼저 안전 기준을 충족할 수 있는지 확인해야 한다는 상업적 압력이 있습니다. 그러면 그들이 먼저 팔고 먼저 돈을 벌게 되기 때문입니다.”