이 스토리는 AI에 대한 주간 뉴스레터인 The Algorithm에서 발췌한 것입니다. 먼저 받은 편지함으로 받으려면, 여기서 가입하세요.
지난 주말에 저는 여름 캠프에서 결혼했는데, 그날 우리 손님들은 쇼에서 영감을 받은 일련의 게임에서 경쟁했습니다. 살아남은 사람 지금의 아내가 된 나와 내가 조직한 것입니다. 8월에 게임을 계획할 때, 우리는 한 스테이션을 기억력 도전으로 삼고 싶었습니다. 친구와 가족이 시의 일부를 암기한 다음 팀원에게 전달하여 나무 타일 세트로 재현할 수 있도록 했습니다.
당시 선두 모델이었던 OpenAI의 GPT-4o가 완벽하게 도움이 될 것이라고 생각했습니다. 저는 각 글자가 특정 횟수만 등장할 수 있도록 제약 조건을 두고 결혼식을 주제로 한 짧은 시를 만들어 달라고 요청했습니다. 그러면 팀이 제공된 타일 세트로 시를 재현할 수 있습니다. GPT-4o는 비참하게 실패했습니다. 모델은 제약 조건 내에서 시가 작동한다고 반복해서 주장했지만, 실제로는 그렇지 않았습니다. 프롬프트에 맞지 않는 시를 계속 제공하는 동안 사후에만 글자를 올바르게 세었습니다. 손으로 세세하게 구절을 만들 시간이 없었기 때문에 시 아이디어를 포기하고 대신 손님들에게 색깔 타일로 만든 일련의 모양을 외우도록 도전했습니다. (그것은 피구, 계란 던지기, 깃발 뺏기에도 참가한 친구와 가족에게 큰 인기를 얻었습니다.)
하지만 지난주 OpenAI 출시된 o1이라는 새로운 모델(이전에는 코드명 “딸기”로 불림) 그리고 그 전에는 Q*) 저것 GPT-4o를 물 밖으로 날려버리다 이런 종류의 목적을 위해.
쓰기와 편집과 같은 언어 작업에 적합한 이전 모델과 달리 OpenAI o1은 고급 수학, 코딩 또는 기타 STEM 기반 질문에 필요한 프로세스 유형인 다단계 “추론”에 중점을 둡니다. OpenAI에 따르면 “사고의 사슬” 기술을 사용합니다. “실수를 인식하고 수정하는 법을 배웁니다. 까다로운 단계를 더 간단한 단계로 분해하는 법을 배웁니다. 현재 방법이 작동하지 않을 때 다른 방법을 시도하는 법을 배웁니다.” 회사는 웹사이트의 블로그 게시물에 이렇게 적었습니다.
OpenAI의 테스트 결과는 엄청난 성공을 보여줍니다. 이 모델은 경쟁적 코딩 조직인 Codeforces의 문제에서 89번째 백분위수에 속하며, 기하학, 수론 및 기타 수학 주제를 다루는 미국 수학 올림피아드에서 상위 500명의 고등학생에 속합니다. 이 모델은 또한 천체물리학에서 유기화학에 이르는 다양한 과목에서 박사 수준의 문제에 답하도록 훈련되었습니다.
수학 올림피아드 문제에서 새로운 모델은 83.3%의 정확도를 보이며, GPT-4o의 경우 13.4%입니다. 박사 수준에서 질문인간 전문가의 69.7%와 GPT-4o의 56.1%에 비해 평균 78%의 정확도를 보였습니다. (이러한 성과를 감안할 때, 새로운 모델이 우리의 결혼 게임을 위한 시를 쓰는 데 꽤 능숙했던 것은 놀라운 일이 아니지만, 여전히 완벽하지는 않았습니다. 지시받은 것보다 더 많은 T와 S를 사용했습니다.)
그러면 왜 이것이 중요한가요? 지금까지 LLM 진전의 대부분은 언어 중심이었으며, 그 결과 단어를 해석, 분석, 생성할 수 있는 챗봇이나 음성 조수가 생겨났습니다. 하지만 많은 사실을 잘못 이해했을 뿐만 아니라, 이러한 LLM은 약물 발견, 재료 과학, 코딩 또는 물리학과 같은 분야에서 중요한 문제를 해결하는 데 필요한 기술 유형을 보여주지 못했습니다. OpenAI의 o1은 LLM이 곧 이러한 분야의 인간 연구자에게 진정으로 도움이 되는 동반자가 될 수 있다는 첫 번째 신호 중 하나입니다.
LLM 스타트업 Fixie의 설립자이자 AI 연구자인 맷 웰시는 이것이 대중에게 AI 모델의 “생각의 사슬” 추론을 제공하기 때문에 큰 일이라고 말했습니다.
“추론 능력은 모델에 직접 들어 있어서, 비슷한 결과를 얻기 위해 별도의 도구를 사용해야 하는 것이 아닙니다. 제 기대는 사람들이 AI 모델에 기대하는 바의 기준을 높일 것이라는 것입니다.” 웰시가 말했습니다.
그럼에도 불구하고, Imperial College London의 수학 및 컴퓨터 과학 부교수인 Yves-Alexandre de Montjoye는 OpenAI의 “인간 수준 기술” 비교를 소금 한 알 정도로 받아들이는 것이 가장 좋다고 말합니다. LLM과 사람이 수학 문제를 처음부터 푸는 것과 같은 작업을 수행하는 방식을 의미 있게 비교하는 것은 매우 어렵습니다.
또한 AI 연구자들도 말하다 o1과 같은 모델이 얼마나 잘 “추론”할 수 있는지 측정하는 것이 생각보다 어렵다는 것입니다. 주어진 질문에 올바르게 답한다면, 그것은 논리적인 답으로 성공적으로 추론했기 때문일까요? 아니면 모델에 내장된 충분한 지식의 시작점의 도움을 받았을까요? Google AI 연구원 François Chollet는 “이 모델은 여전히 개방형 추론에 있어서는 부족하다”고 말합니다. 썼다 X에 대하여.
마지막으로 가격이 있습니다. 이 추론 중심 모델은 저렴하지 않습니다. 일부 버전의 모델에 대한 액세스는 프리미엄 OpenAI 구독에 포함되어 있지만 API를 통해 o1을 사용하는 개발자는 GPT-4o에 지불하는 것보다 3배 더 많은 비용을 지불해야 합니다. o1의 100만 입력 토큰당 15달러인 반면 GPT-4o의 경우 5달러입니다. 또한 OpenAI의 사용자 설문 조사에 따르면 새로운 모델은 언어 중심 작업의 경우 대부분 사용자의 첫 번째 선택이 되지 않을 것입니다. 이 작업에서는 GPT-4o가 여전히 더 나은 옵션입니다.
무엇이 잠금 해제될까요? 연구자와 연구실이 새로운 모드를 조작하고 한계를 찾을 수 있는 접근, 시간, 예산을 확보할 때까지는 알 수 없습니다. 하지만 인간을 능가하는 모델을 위한 경쟁이 시작되었다는 신호임은 분명합니다.
이제 알고리즘의 나머지 부분을 읽어보세요.
더 깊은 학습
챗봇은 사람들이 음모론을 믿지 않도록 설득할 수 있습니다.
연구자들은 거짓 음모론에 맞서기 위한 새로운 도구인 AI 챗봇을 발견했다고 믿는다. MIT 슬론과 코넬 대학의 연구자들은 대규모 언어 모델(LLM)로 음모론에 대해 대화하면 사람들의 믿음이 약 20% 감소한다는 것을 발견했다. 심지어 자신의 믿음이 정체성에 중요하다고 주장한 참가자들 사이에서도 마찬가지였다.
이것이 중요한 이유: 이러한 발견은 근거 없는 이론을 지지하는 사람들과 교류하고 교육하는 방법에 있어 중요한 진전을 나타낼 수 있다고 AI가 사회에 미치는 영향을 연구하는 기술 심리학 연구소에 소속된 포스트닥 펠로우인 윤하오(제리) 장은 말한다. “그들은 대규모 언어 모델의 도움으로 우리가 – 해결한다고는 말할 수 없지만, 적어도 이 문제를 완화할 수 있다는 것을 보여줍니다.” 그는 말한다. “이것은 사회를 더 나은 곳으로 만들 수 있는 방법을 제시합니다.” 여기에서 Rhiannon Williams의 다른 글을 읽어보세요..
비트와 바이트
Google의 새로운 도구를 사용하면 대규모 언어 모델이 응답에 대한 사실 확인을 수행할 수 있습니다.
DataGemma라고 불리는 이 솔루션은 두 가지 방법을 사용하여 LLM이 자신의 응답을 신뢰할 수 있는 데이터와 비교하고 사용자에게 더 투명하게 출처를 인용할 수 있도록 돕습니다.MIT 기술 리뷰)
우크라이나의 드론 방어를 형성하는 라디오에 집착한 민간인을 만나보세요
러시아의 침공 이후, 세르히 “플래시” 베스크레스트노프는 영향력 있는, 때로는 논란의 여지가 있는 세력이 되었으며, 하늘을 장악한 끊임없이 진화하는 기술에 대한 전문가의 조언과 정보를 공유합니다. 그의 작업은 우크라이나의 미래와 그 너머의 전쟁을 결정할 수 있습니다. (MIT 기술 리뷰)
기술 회사들은 AI가 생성한 성적 학대 이미지를 방지하기 위한 백악관 공약에 동참했습니다.
OpenAI, Anthropic, Microsoft와 같은 회사가 서명한 서약은 “이미지 기반 성적 학대의 생성을 억제”하는 것을 목표로 합니다. 이 회사들은 모델이 생성할 내용에 제한을 두고 가능한 경우 훈련 데이터 세트에서 누드 이미지를 제거하겠다고 약속했습니다. (행운)
OpenAI의 현재 가치는 1,500억 달러입니다.
이 평가는 현재 65억 달러를 모으기 위해 진행 중인 협상에서 나왔습니다. OpenAI의 운영 비용이 점점 더 많이 들고 올해 최대 50억 달러를 잃을 수 있다는 점을 감안할 때, 이 모든 것이 어떻게 합쳐지는지 보는 것은 까다롭습니다. (정보)