인공신경망—생물학적 뇌에서 영감을 받은 알고리즘—은 채팅봇과 이미지 생성기 모두의 배후에 있는 현대 인공지능의 중심에 있습니다. 그러나 많은 뉴런을 가지고 있기 때문에 검은 상자사용자는 내부 작동 방식을 해석할 수 없습니다.
연구자들은 이제 어떤 면에서는 기존 시스템을 능가하는 근본적으로 새로운 신경망을 만드는 방법을 만들어냈습니다. 지지자들은 이 새로운 네트워크가 더 작은 경우에도 더 해석 가능하고 더 정확하다고 말합니다. 개발자들은 물리 데이터를 간결하게 표현하는 방법을 배우는 방식이 과학자들이 새로운 자연 법칙을 발견하는 데 도움이 될 수 있다고 말합니다.
“테이블에 새로운 아키텍처가 있다는 것을 보는 것은 정말 기쁩니다.” —브라이스 메나드(존스홉킨스대학교)
존스홉킨스 대학의 물리학자인 브라이스 메나드(Brice Ménard)는 신경망의 작동 방식을 연구하지만 새로운 작업에는 참여하지 않았다고 말하며, 엔지니어들은 지난 10년 이상 시행착오를 통해 대부분 신경망 설계를 조정해 왔다고 말했습니다. arXiv에 게시되었습니다 4월에. “테이블에 새로운 아키텍처가 있다는 것을 보는 것은 정말 기쁩니다.” 특히 첫 번째 원칙에서 설계된 아키텍처가 그렇습니다.
신경망을 생각하는 한 가지 방법은 뉴런 또는 노드와 시냅스 또는 노드 간의 연결을 비유하는 것입니다. 다층 퍼셉트론(MLP)이라고 하는 기존 신경망에서 각 시냅스는 가중치를 학습합니다. 가중치는 다음을 결정하는 숫자입니다. 얼마나 강한지 연결은 두 뉴런 사이에 있습니다. 뉴런은 층으로 배열되어 있어서 한 층의 뉴런이 이전 층의 뉴런으로부터 입력 신호를 받고, 시냅스 연결의 강도에 따라 가중치를 둡니다. 그런 다음 각 뉴런은 입력의 총합에 간단한 함수를 적용하는데, 이를 활성화 함수라고 합니다.
기존 신경망에서는 다층 퍼셉트론이라고도 합니다. [left]각 시냅스는 가중치라고 하는 숫자를 학습하고, 각 뉴런은 입력의 합에 간단한 함수를 적용합니다. 새로운 콜모고로프-아놀드 아키텍처에서 [right]각 시냅스는 함수를 학습하고, 뉴런은 해당 함수의 출력을 합산합니다.NSF 인공지능 및 기본 상호작용 연구소
새로운 아키텍처에서 시냅스는 더 복잡한 역할을 합니다. 단순히 학습하는 대신 얼마나 강한지 두 뉴런 간의 연결은 그들이 학습한다는 것입니다 완전한 자연 그 연결의—입력을 출력에 매핑하는 함수입니다. 기존 아키텍처의 뉴런에서 사용하는 활성화 함수와 달리 이 함수는 더 복잡할 수 있습니다. 사실 “스플라인” 또는 여러 함수의 조합이며 각 인스턴스에서 다릅니다. 반면 뉴런은 더 단순해집니다. 이전 시냅스의 모든 출력을 합산하기만 합니다. 새로운 네트워크는 함수를 결합하는 방법을 연구한 두 수학자의 이름을 따서 콜모고로프-아놀드 네트워크(KAN)라고 합니다. KAN은 학습된 매개변수를 덜 사용하면서도 데이터를 표현하는 방법을 학습할 때 더 큰 유연성을 제공한다는 아이디어입니다.
“그것은 마치 다른 관점에서 사물을 보는 외계 생명체와 같지만 인간에게도 어느 정도 이해될 수 있는 것 같습니다.” —Ziming Liu, 매사추세츠 공과대학
연구자들은 비교적 간단한 과학 과제에서 KAN을 테스트했습니다. 일부 실험에서는 두 개의 상대론적 속도 물체가 서로를 지나가는 속도와 같은 간단한 물리 법칙을 사용했습니다. 그들은 이러한 방정식을 사용하여 입출력 데이터 포인트를 생성한 다음 각 물리 함수에 대해 일부 데이터에 대한 네트워크를 학습하고 나머지에 대해 테스트했습니다. 그들은 KAN의 크기를 늘리면 MLP의 크기를 늘리는 것보다 더 빠른 속도로 성능이 향상된다는 것을 발견했습니다. 편미분 방정식을 풀 때 KAN은 매개변수가 100배 더 많은 MLP보다 100배 더 정확했습니다.
또 다른 실험에서 그들은 네트워크가 매듭의 다른 속성을 기반으로 위상 매듭의 한 속성인 시그니처를 예측하도록 훈련했습니다. MLP는 약 300,000개의 매개변수를 사용하여 78%의 테스트 정확도를 달성한 반면, KAN은 약 200개의 매개변수만 사용하여 81.6%의 테스트 정확도를 달성했습니다.
게다가 연구자들은 KAN을 시각적으로 매핑하고 활성화 함수의 모양과 각 연결의 중요성을 살펴볼 수 있었습니다. 수동 또는 자동으로 약한 연결을 제거하고 일부 활성화 함수를 사인 또는 지수 함수와 같은 더 간단한 함수로 대체할 수 있었습니다. 그런 다음 전체 KAN을 직관적인 한 줄 함수(모든 구성 요소 활성화 함수 포함)로 요약할 수 있었고, 어떤 경우에는 데이터 세트를 만든 물리 함수를 완벽하게 재구성할 수 있었습니다.
“앞으로는 이것이 가능해지기를 바랍니다. 일상의 과학 연구에 유용한 도구매사추세츠 공과대학의 컴퓨터 과학자이자 이 논문의 첫 번째 저자인 지밍 리우는 “우리가 해석하는 방법을 모르는 데이터 세트가 주어지면 우리는 그것을 KAN에 던지고, 그것은 어떤 가설을 생성하다 당신을 위해. 당신은 단지 뇌를 응시합니다 [the KAN diagram] 그리고 원한다면 수술도 할 수 있어요.” 깔끔한 기능을 얻을 수도 있어요. “다른 관점에서 사물을 보는 외계 생명체 같지만 인간에게도 어느 정도 이해되는 것 같아요.”
수십 개의 논문이 이미 KAN 사전 인쇄본을 인용했습니다. 아르헨티나 산 안드레스 대학교의 컴퓨터 과학 학부생인 알렉산더 보드너는 “그것을 본 순간 매우 흥미로웠습니다.”라고 말합니다. 일주일 만에 그와 세 명의 급우는 KAN을 이미지 처리에 널리 사용되는 아키텍처인 합성 신경망(CNN)과 결합했습니다. 그들은 합성 KAN 손으로 쓴 숫자나 옷을 분류하는 능력에 대한 것입니다. 가장 좋은 것은 기존 CNN의 성능과 거의 비슷했지만(숫자에서 두 네트워크 모두 99% 정확도, 옷에서 두 네트워크 모두 90%) 매개변수를 약 60% 적게 사용했습니다. 데이터 세트는 간단했지만 Bodner는 컴퓨팅 능력이 더 뛰어난 다른 팀이 네트워크를 확장하기 시작했다고 말합니다. 다른 사람들은 KAN을 변압기와 결합하고 있습니다. 변압기는 대규모 언어 모델.
KAN의 한 가지 단점은 매개변수당 훈련에 더 오랜 시간이 걸린다는 것입니다. 부분적으로는 GPU를 활용할 수 없기 때문입니다. 하지만 매개변수가 더 적게 필요합니다. Liu는 KAN이 이미지와 언어를 처리하기 위해 거대한 CNN과 변압기를 대체하지 않더라도 많은 물리 문제의 작은 규모에서는 훈련 시간이 문제가 되지 않을 것이라고 말합니다. 그는 전문가가 수동으로 활성화 함수를 선택하여 사전 지식을 KAN에 삽입하고 간단한 인터페이스를 사용하여 지식을 쉽게 추출할 수 있는 방법을 찾고 있습니다. 언젠가 KAN이 물리학자들이 고온 초전도체나 핵융합을 제어하는 방법을 발견하는 데 도움이 될 수 있다고 그는 말합니다.