스탠포드 대학교 교수 페이 페이 리 이미 AI 역사에서 그녀의 자리를 차지했습니다. 그녀는 에서 중요한 역할을 했습니다. 딥러닝 수년 동안 노력하여 혁명을 일으켰습니다. 이미지넷 AI 시스템이 1,000개 범주에 걸쳐 사물과 동물을 인식하도록 도전한 데이터 세트 및 경쟁. 2012년 AlexNet이라는 신경망은 다른 모든 유형의 모델을 훨씬 능가하고 ImageNet 콘테스트에서 우승하여 AI 연구 커뮤니티에 충격파를 보냈습니다. 거기에서 현재 인터넷에서 사용할 수 있는 방대한 양의 무료 교육 데이터와 전례 없는 컴퓨팅 성능을 제공하는 GPU를 기반으로 하는 신경망이 탄생했습니다.
ImageNet 이후 13년 동안 컴퓨터 비전 연구자들은 객체 인식을 마스터하고 이미지 및 비디오 생성으로 나아갔습니다. Li는 스탠포드 대학을 공동 창립했습니다. 인간중심AI연구소 (HAI)는 계속해서 경계를 넓혀왔습니다. 컴퓨터 비전. 바로 올해 그녀는 스타트업을 시작했습니다. 월드랩스사용자가 탐색할 수 있는 3D 장면을 생성합니다. World Labs는 AI “공간 지능”, 즉 3D 세계를 생성하고 추론하고 상호 작용하는 능력을 제공하는 데 전념하고 있습니다. Li는 어제 기조연설을 했습니다. NeurIPS대규모 AI 컨퍼런스에서 머신 비전에 대한 그녀의 비전에 대해 이야기하고 그녀는 IEEE 스펙트럼 그녀의 연설 전 독점 인터뷰.
강연 제목을 “시각 지능의 사다리를 오르다”로 정한 이유는 무엇입니까?
페이페이 리: 지능이 다양한 수준의 복잡성과 정교함을 갖고 있다는 것은 직관적이라고 생각합니다. 이 강연에서 저는 지난 수십 년 동안, 특히 딥 러닝 혁명이 일어난 지난 10년 동안 우리가 시각 지능으로 배운 것들이 정말 놀랍다는 점을 전달하고 싶습니다. 우리는 기술을 통해 점점 더 많은 능력을 갖추게 되었습니다. 그리고 나는 또한 Judea Pearl의 “인과관계의 사다리”[그의 2020년 책에서]에서 영감을 받았습니다. [inhis2020book왜의 책].
강연에는 ‘보는 것부터 실천하는 것까지’라는 부제가 붙어 있다. 이것은 사람들이 충분히 인식하지 못하는 부분입니다. 동물과 AI 에이전트 모두에게 보는 것은 상호 작용 및 행동과 밀접하게 연결되어 있다는 것입니다. 그리고 이것은 언어로부터의 일탈입니다. 언어는 근본적으로 아이디어를 전달하는 데 사용되는 의사소통 도구입니다. 내 생각에 이것들은 매우 보완적이지만 똑같이 심오한 지능의 양식입니다.
우리가 특정 광경에 본능적으로 반응한다는 뜻인가요?
리: 나는 본능에 대해서만 말하는 것이 아닙니다. 지각의 진화와 동물 지능의 진화를 살펴보면, 그것은 깊고 깊게 얽혀 있습니다. 우리가 환경으로부터 더 많은 정보를 얻을 때마다 진화의 힘은 능력과 지능을 더욱 발전시킵니다. 환경을 감지하지 못한다면 세상과의 관계는 매우 수동적입니다. 먹느냐 먹히느냐 하는 것은 매우 수동적인 행위이다. 그러나 지각을 통해 환경으로부터 단서를 얻을 수 있게 되자마자 진화의 압력이 실제로 높아지고 지능이 발전하게 됩니다.
이것이 우리가 점점 더 심층적인 기계 지능을 만들고 있다고 생각하시나요? 기계가 환경을 더 많이 인식할 수 있게 함으로써?
리: “깊은”이 제가 사용할 형용사인지는 모르겠습니다. 우리는 더 많은 역량을 창출하고 있다고 생각합니다. 점점 더 복잡해지고, 더 능력이 많아지고 있다고 생각합니다. 저는 공간 지능 문제를 해결하는 것이 본격적인 지능을 향한 기본적이고 중요한 단계라는 것이 절대적으로 사실이라고 생각합니다.
World Labs 데모를 보았습니다. 공간 지능을 연구하고 이러한 3D 세계를 구축하려는 이유는 무엇입니까?
리: 저는 공간 지능이 시각 지능의 방향이라고 생각합니다. 우리가 비전의 문제를 해결하고 이를 실행에 연결하는 것에 대해 진지하게 생각한다면, 매우 간단하고 일반적인 사실이 있습니다: 세상은 3D입니다. 우리는 평평한 세상에 살고 있지 않습니다. 로봇이든 장치이든 우리의 물리적 에이전트는 3D 세계에 살게 됩니다. 가상 세계도 점점 더 3D화되고 있습니다. 예술가, 게임 개발자, 디자이너, 건축가, 의사와 이야기를 나누면 가상 세계에서 작업하는 경우에도 대부분이 3D입니다. 잠시 시간을 내어 이 간단하면서도 심오한 사실을 인식한다면 3D 지능의 문제를 해결하는 것이 기본이라는 데는 의문의 여지가 없습니다.
월드랩스의 장면들이 어떻게 물체 영속성을 유지하고 물리법칙을 준수하는지 궁금합니다. Sora와 같은 비디오 생성 도구를 사용하기 때문에 이는 흥미로운 진전처럼 느껴집니다. 아직도 그런 일을 더듬다.
리: 일단 세계의 3차원성을 존중하면 이 중 많은 부분이 자연스러워집니다. 예를 들어, 우리가 소셜 미디어에 게시한 비디오 중 하나에서는 농구공이 한 장면에 등장합니다. 3D이기 때문에 그런 기능을 가질 수 있습니다. 장면이 단지 2D로 생성된 픽셀이라면 농구공은 아무데도 가지 않을 것입니다.
아니면 소라처럼 어딘가로 갔다가 사라질 수도 있습니다. 해당 기술을 발전시키려고 할 때 직면하고 있는 가장 큰 기술적 과제는 무엇입니까?
리: 이 문제를 해결한 사람은 아무도 없습니다. 그렇죠? 아주 아주 어렵습니다. 당신은 볼 수 있습니다 [in a World Labs demo video] 우리는 반 고흐의 그림을 가져와 그 주변의 전체 장면을 일관된 스타일로 생성했습니다. 예술적인 스타일, 조명, 심지어 그 동네에 어떤 종류의 건물이 있을지도 말이죠. 뒤돌아서 고층 빌딩이 된다면 전혀 설득력이 없겠죠? 그리고 3D여야 합니다. 당신은 그것을 탐색해야합니다. 그래서 그것은 단순한 픽셀이 아닙니다.
훈련에 사용한 데이터에 대해 말씀해주실 수 있나요?
리: 많이.
컴퓨팅 부담과 관련하여 기술적인 문제가 있습니까?
리: 많은 계산이 필요합니다. 이는 공공 부문이 감당할 수 없는 종류의 컴퓨팅입니다. 이것이 제가 이 안식년을 민간 부문 방식으로 수행하게 된 것을 기쁘게 생각하는 이유 중 하나입니다. 그리고 이는 제가 공공 부문 컴퓨팅 액세스를 옹호해 온 이유 중 하나이기도 합니다. 제 경험이 적절한 양의 리소스를 갖춘 혁신의 중요성을 강조하기 때문입니다.
공공 부문은 일반적으로 그 자체를 위한 지식과 인류의 이익을 위한 지식을 얻는 데 더 많은 동기를 부여받기 때문에 공공 부문에 권한을 부여하는 것이 좋을 것입니다.
리: 지식 발견은 자원의 지원을 받아야 합니다. 그렇죠? 갈릴레오 시대에는 천문학자들이 새로운 천체를 관찰할 수 있게 해주는 최고의 망원경이었습니다. 돋보기가 현미경이 될 수 있다는 사실을 깨닫고 세포를 발견한 사람이 후크입니다. 새로운 기술 도구가 나올 때마다 지식 추구에 도움이 됩니다. 그리고 이제 AI 시대의 기술 도구에는 컴퓨팅과 데이터가 포함됩니다. 우리는 공공 부문에 대해 이를 인식해야 합니다.
자원을 제공하기 위해 연방 차원에서 어떤 일이 일어나길 바라나요?
리: 이것은 지난 5년 동안 Stanford HAI의 작업이었습니다. 우리는 의회, 상원, 백악관, 업계 및 기타 대학과 협력하여 NAIRR을 만들었습니다. 국가 AI 연구 자원.
AI 시스템이 3D 세계를 실제로 이해하도록 할 수 있다고 가정하면, 이는 우리에게 무엇을 제공합니까?
리: 이는 사람들에게 많은 창의성과 생산성을 제공할 것입니다. 나는 훨씬 더 효율적인 방식으로 집을 디자인하고 싶습니다. 나는 많은 의학적 용도가 인체인 매우 특정한 3D 세계를 이해하는 것과 관련이 있다는 것을 알고 있습니다. 우리는 항상 인간이 창조할 미래에 대해 이야기합니다. 우리를 도와주는 로봇그러나 로봇은 3D 세계에서 탐색하므로 뇌의 일부로 공간 지능이 필요합니다. 또한 사람들이 장소를 방문하거나 개념을 배우거나 즐길 수 있는 가상 세계에 대해서도 이야기합니다. 그리고 그것들은 3D 기술, 특히 우리가 AR이라고 부르는 하이브리드 기술을 사용합니다. [증강 현실]. 나는 나무, 길, 구름에 대한 정보를 알려주는 안경을 끼고 국립공원을 산책하고 싶습니다. 또한 공간 지능의 도움을 통해 다양한 기술을 배우고 싶습니다.
어떤 종류의 기술이 있나요?
리: 나의 어리석은 예는 고속도로에서 타이어에 바람이 빠졌다면 어떻게 해야 합니까? 지금 바로 ‘타이어 교체 방법’ 영상을 열어보겠습니다. 하지만 안경을 쓰고 내 차에 무슨 일이 일어나고 있는지 확인한 다음 그 과정을 안내받을 수 있다면 정말 멋질 것입니다. 그러나 그것은 형편없는 예이다. 요리에 대해 생각할 수도 있고 조각에 대해 생각할 수도 있습니다. 재미있는 일이죠.
우리가 평생 동안 이것으로 얼마나 멀리 갈 수 있을 것이라고 생각하시나요?
리: 아, 기술 발전의 속도가 정말 빠르기 때문에 우리 생애에도 그런 일이 일어날 것 같아요. 여러분은 지난 10년이 어떤 결과를 가져왔는지 보셨습니다. 이는 확실히 다음에 무엇이 올 것인지에 대한 표시입니다.