연구 비영리 단체인 Allen Institute for Artificial Intelligence(Ai2)는 다음과 같은 오픈 소스 멀티모달 언어 모델 제품군을 출시합니다. 입OpenAI, Google, Anthropic의 최고 독점 모델과 동등하게 성능이 뛰어나다고 합니다.
이 조직은 매개변수가 720억 개에 달하는 자사의 가장 큰 Molmo 모델이 매개변수가 1조 개가 넘을 것으로 추정되는 OpenAI의 GPT-4o보다 이미지, 차트, 문서 이해 등을 측정하는 테스트에서 더 나은 성과를 보였다고 주장합니다.
한편, Ai2는 70억 개의 매개변수를 갖춘 더 작은 Molmo 모델이 성능 면에서 OpenAI의 최첨단 모델에 근접한다고 말하며, 이를 훨씬 더 효율적인 데이터 수집과 학습 방법 덕분에 이룬 성과라고 밝혔습니다.
Ai2의 CEO인 알리 파르하디는 몰모가 보여주는 것은 오픈소스 AI 개발이 이제 폐쇄적이고 독점적인 모델과 동등하다는 것이라고 말합니다. 그리고 오픈소스 모델은 개방적인 특성으로 인해 다른 사람들이 그 위에 애플리케이션을 구축할 수 있기 때문에 상당한 이점이 있습니다. Molmo 데모는 여기에서 볼 수 있습니다그리고 개발자들이 Hugging Face 웹사이트에서 이를 조작할 수 있게 될 것입니다. (가장 강력한 Molmo 모델의 특정 요소는 여전히 보이지 않습니다.)
다른 대규모 멀티모달 언어 모델은 인터넷에서 수집한 수십억 개의 이미지와 텍스트 샘플을 포함하는 방대한 데이터 세트에서 학습되며, 여기에는 수조 개의 매개변수가 포함될 수 있습니다. Ai2의 수석 연구 책임자인 애니 켐바비는 이 프로세스가 학습 데이터에 많은 노이즈를 도입하고, 이와 함께 환각이 발생한다고 말합니다. 반면 Ai2의 Molmo 모델은 600,000개의 이미지만 포함하는 상당히 작고 더 큐레이팅된 데이터 세트에서 학습되었으며, 10억에서 720억 개의 매개변수가 있습니다. 무차별적으로 스크래핑된 데이터와 달리 고품질 데이터에 집중한 덕분에 훨씬 적은 리소스로 좋은 성과를 거두었다고 켐바비는 말합니다.
Ai2는 인간 주석자가 모델의 훈련 데이터 세트에 있는 이미지를 여러 페이지의 텍스트에 걸쳐 엄청나게 자세하게 설명하도록 함으로써 이를 달성했습니다. 그들은 주석자에게 타이핑하는 대신 본 것에 대해 이야기하도록 요청했습니다. 그런 다음 AI 기술을 사용하여 음성을 데이터로 변환하여 훈련 프로세스를 훨씬 빠르게 진행하는 동시에 필요한 컴퓨팅 파워를 줄였습니다.
“이러한 기술은 AI 개발에 사용하는 데이터를 의미 있게 관리하고 싶다면 매우 유용할 수 있습니다.” Hugging Face의 머신 러닝 및 사회 책임자인 야신 저나이트는 말합니다. 그녀는 이번 연구에 참여하지 않았습니다.
“일반적으로 더 높은 품질의 데이터로 훈련하면 컴퓨팅 비용을 낮출 수 있다는 것은 말이 됩니다.” 연구에 참여하지 않은 스탠포드 재단 모델 연구 센터의 책임자인 퍼시 리앙의 말이다.
또 다른 인상적인 기능은 모델이 사물을 “가리킬” 수 있다는 것입니다. 즉, 쿼리에 답하는 픽셀을 식별하여 이미지의 요소를 분석할 수 있다는 의미입니다.
공유된 데모에서 MIT 기술 리뷰Ai2 연구원들은 시애틀 지역 마리나의 사무실 밖에서 사진을 찍고 모델에게 이미지의 다양한 요소(예: 데크 의자)를 식별하도록 요청했습니다. 모델은 이미지에 포함된 내용을 성공적으로 설명하고, 데크 의자를 세고, 연구원들이 요청한 대로 이미지의 다른 것들을 정확하게 지적했습니다. 그러나 완벽하지는 않았습니다. 예를 들어 특정 주차장을 찾을 수 없었습니다.
다른 고급 AI 모델은 장면과 이미지를 설명하는 데 능숙하다고 Farhadi는 말합니다. 하지만 세상과 상호 작용하고 예를 들어 항공편을 예약할 수 있는 더욱 정교한 웹 에이전트를 구축하고 싶을 때는 그것만으로는 충분하지 않습니다. 포인팅을 통해 사람들은 사용자 인터페이스와 상호 작용할 수 있다고 그는 말합니다.
Jernite는 Ai2가 다른 AI 회사에서 본 것보다 더 높은 수준의 개방성으로 운영되고 있다고 말합니다. 그리고 Molmo가 좋은 시작이기는 하지만, 그 진정한 중요성은 개발자들이 그 위에 구축하는 애플리케이션과 사람들이 그것을 개선하는 방법에 있을 것이라고 그는 말합니다.
파르하디도 동의합니다. AI 회사는 지난 몇 년 동안 수조 달러에 달하는 막대한 투자를 유치했습니다. 하지만 지난 몇 달 동안 투자자들은 그 투자가 수익을 가져올지에 대해 회의적인 태도를 보였습니다. 그는 크고 비싼 독점 모델은 그럴 수 없지만 오픈소스 모델은 그럴 수 있다고 주장합니다. 그는 이 연구가 오픈소스 AI도 돈과 시간을 효율적으로 사용하는 방식으로 구축할 수 있음을 보여준다고 말합니다.
파르하디는 “우리는 다른 사람들이 이를 활용할 수 있도록 돕고 다른 사람들이 이를 통해 무엇을 만들지 보는 것을 기쁘게 생각합니다.”라고 말했습니다.