신경망을 구축하는 새로운 방식으로 AI를 더 이해하기 쉽게 만들 수 있습니다.

Date:

인공 뉴런이 신경망에서 작동하는 방식을 조정하면 AI를 더 쉽게 해독할 수 있습니다.

인공 뉴런(딥 뉴럴 네트워크의 기본 구성 요소)은 수십 년 동안 거의 변함없이 살아남았습니다. 이러한 네트워크는 현대 인공지능에 힘을 주지만, 동시에 이해하기 어렵습니다.

GPT4와 같은 대규모 언어 모델에 사용되는 기존 인공 뉴런은 많은 수의 입력을 받아 이를 합산한 다음 다른 수학 연산을 사용하여 합계를 출력으로 변환하여 작동합니다. 내부에 뉴런. 이러한 뉴런의 조합은 신경망을 구성하며, 이들의 결합된 작동은 디코딩하기 어려울 수 있습니다.

하지만 뉴런을 결합하는 새로운 방식은 약간 다르게 작동합니다. 기존 뉴런의 복잡성 중 일부는 단순화되고 이동됩니다. 밖의 뉴런. 내부에서 새로운 뉴런은 단순히 입력을 합산하고 추가 숨겨진 연산이 필요 없이 출력을 생성합니다. 이러한 뉴런의 네트워크는 영감을 준 러시아 수학자의 이름을 따서 Kolmogorov-Arnold Networks(KANs)라고 합니다.

MIT 연구자들이 이끄는 그룹이 자세히 연구한 이 단순화는 신경망이 특정 출력을 생성하는 이유를 이해하고, 결정을 검증하고, 심지어 편향을 조사하는 것을 더 쉽게 만들 수 있습니다. 예비 증거에 따르면 KAN이 커질수록 정확도가 기존 뉴런으로 구성된 네트워크보다 더 빨리 증가합니다.

“흥미로운 작업이에요.”라고 그는 말한다. 앤드류 윌슨뉴욕 대학교에서 머신 러닝의 기초를 연구하는 사람입니다. “사람들이 이러한 디자인을 근본적으로 재고하려고 하는 것은 좋은 일입니다. [networks].”

KAN의 기본 요소는 실제로 1990년대에 제안되었고, 연구자들은 그러한 네트워크의 간단한 버전을 계속 구축했습니다. 하지만 MIT가 이끄는 팀은 이 아이디어를 더욱 발전시켜 더 큰 KAN을 구축하고 훈련하는 방법을 보여주고, 이에 대한 실증적 테스트를 수행하고, 일부 KAN을 분석하여 인간이 KAN의 문제 해결 능력을 어떻게 해석할 수 있는지 보여주었습니다. “우리는 이 아이디어를 되살렸습니다.”라고 팀원이 말했습니다. 리우 지밍MIT의 Max Tegmark 연구실에 있는 박사 과정 학생입니다. “그리고 해석 가능성을 통해… [may] 더 이상 아니다 [have to] 신경망은 블랙박스라고 생각합니다.”

아직 초기 단계이기는 하지만, 해당 팀의 KAN 관련 작업이 주목을 받고 있습니다. GitHub 페이지 이미지 인식 및 유체 역학 문제 해결 등 다양한 응용 분야에 KAN을 사용하는 방법을 보여주는 많은 연구가 생겨났습니다.

공식 찾기

현재의 발전은 MIT, Caltech 및 기타 연구소의 Liu와 동료들이 표준 인공 신경망의 내부 작동 방식을 이해하려고 노력하는 과정에서 이루어졌습니다.

오늘날, 대규모 언어 모델과 이미지 인식 시스템을 구축하는 데 사용되는 것을 포함하여 거의 모든 유형의 AI에는 다층 퍼셉트론(MLP)이라고 하는 하위 네트워크가 포함됩니다. MLP에서 인공 뉴런은 밀집되고 상호 연결된 “계층”으로 배열됩니다. 각 뉴런에는 “활성화 함수”라는 것이 있습니다. 이는 여러 입력을 받아 미리 지정된 방식으로 출력으로 변환하는 수학적 연산입니다.

MLP에서 각 인공 뉴런은 이전 계층의 모든 뉴런으로부터 입력을 받고 각 입력에 해당하는 “가중치”(입력의 중요성을 나타내는 숫자)를 곱합니다. 이러한 가중 입력은 함께 추가되어 뉴런 내부의 활성화 함수에 공급되어 출력을 생성한 다음 다음 계층의 뉴런으로 전달됩니다. MLP는 예를 들어 모든 뉴런의 입력 가중치에 대한 올바른 값을 선택하여 고양이와 개 이미지를 구별하는 법을 배웁니다. 중요한 점은 활성화 함수가 고정되어 있고 학습 중에 변경되지 않는다는 것입니다.

일단 훈련되면 MLP의 모든 뉴런과 그 연결은 본질적으로 입력(예: 이미지의 수만 개의 픽셀)을 받아 원하는 출력(예: 고양이의 경우 0, 개의 경우 1)을 생성하는 또 다른 함수로 작동합니다. 함수의 모양, 즉 수학적 형태를 이해하는 것은 왜 어떤 출력을 생성하는지 이해하는 데 중요한 부분입니다. 예를 들어, 재정 상태에 대한 입력을 감안할 때 왜 누군가를 신용이 있다고 태그할까요? 하지만 MLP는 블랙박스입니다. 이미지 인식과 같은 복잡한 작업의 경우 네트워크를 역엔지니어링하는 것은 거의 불가능합니다.

그리고 Liu와 동료들이 맞춤형 “합성” 데이터를 포함하는 더 간단한 작업을 위해 MLP를 역엔지니어링하려고 시도했을 때조차도 어려움을 겪었습니다.

“신경망에서 이러한 합성 데이터 세트를 해석할 수 없다면 실제 데이터 세트를 다루는 것은 희망이 없습니다.”라고 Liu는 말합니다. “우리는 이러한 신경망을 이해하려고 노력하는 것이 정말 어렵다는 것을 알게 되었습니다. 우리는 아키텍처를 바꾸고 싶었습니다.”

수학을 매핑하다

가장 큰 변경 사항은 고정된 활성화 함수를 제거하고 뉴런에 입력되기 전에 들어오는 각 입력을 변환하는 훨씬 더 간단한 학습 가능한 함수를 도입하는 것이었습니다.

MLP 뉴런의 활성화 함수와 달리, 수많은 입력을 받는 반면, KAN 뉴런 외부의 각 단순 함수는 하나의 숫자를 받아서 다른 숫자를 뱉어냅니다. 이제 훈련하는 동안 MLP에서처럼 개별 가중치를 학습하는 대신, KAN은 각 단순 함수를 표현하는 방법만 학습합니다. 올해 사전 인쇄 서버 ArXiv에 게시된 논문에서류와 동료들은 뉴런 외부의 이러한 간단한 함수는 해석하기가 훨씬 더 쉽다는 것을 보여주었고, 이를 통해 KAN 전체가 학습하고 있는 함수의 수학적 형태를 재구성하는 것이 가능해졌습니다.

그러나 이 팀은 이미지 인식과 같이 더 복잡한 실제 문제가 아닌 단순하고 합성적인 데이터 세트에 대한 KAN의 해석 가능성만 테스트했습니다.[We are] “천천히 경계를 넓혀가고 있습니다.”라고 Liu는 말합니다. “해석은 매우 어려운 과제가 될 수 있습니다.”

Liu와 동료들은 또한 KAN이 MLP보다 더 빠르게 크기가 커짐에 따라 작업에서 더 정확해진다는 것을 보여주었습니다. 이 팀은 결과를 이론적으로 증명했고 과학 관련 작업(물리학과 관련된 함수를 근사하는 법을 배우는 것과 같은)에 대해 경험적으로 보여주었습니다. Liu는 “이 관찰이 표준 머신 러닝 작업으로 확장될지는 아직 불분명하지만 적어도 과학 관련 작업에서는 유망해 보입니다.”라고 말합니다.

류는 KAN이 하나의 중요한 단점을 가지고 있다는 것을 인정합니다. 즉, MLP와 비교해 KAN을 훈련하는 데 더 많은 시간과 컴퓨팅 능력이 필요하다는 것입니다.

“이로 인해 대규모 데이터 세트와 복잡한 작업에 대한 KAN의 적용 효율성이 제한됩니다.”라고 그는 말합니다. 디 장중국 수저우에 있는 Xi’an Jiaotong-Liverpool University의. 하지만 그는 더 효율적인 알고리즘과 하드웨어 가속기가 도움이 될 수 있다고 제안합니다.

Anil Ananthaswamy는 물리학, 계산 신경 과학 및 머신 러닝에 대해 글을 쓰는 과학 저널리스트이자 작가입니다. 그의 새 책, 기계가 학습하는 이유: 현대 AI의 우아한 수학7월에 Dutton(Penguin Random House US)에서 출판되었습니다.

Share post:

Subscribe

Popular

More like this
Related

생성 AI 활용: 업계 리더를 위한 대담한 도전과 보상

조직이 AI의 잠재력을 계속 탐구함에 따라 Microsoft 고객은 워크플로를...

식품 안전 분야에서 AI의 필요성 증가

특히 광범위한 조류독감 발생의 영향이 농업 부문 전반에 걸쳐...

12월23일 정부지원사업 신규 공고 리스트 (12건) _ (파일 재가공/재배포 가능)

12월 23일 12건<12/23지원사업 신규 공고 목록> *전 영업일인 12/20에 올라온...

Waste Robotics와 Greyparrot가 분류 로봇을 강화하는 방법

Waste Robotics는 FANUC 로봇 팔을 사용하여 안정적이고 정확한 피킹을...