다음을 사용하는 머신러닝 칩 아날로그 회로 디지털 대신에 오랫동안 엄청난 에너지 절약을 약속해 왔습니다. 그러나 실제로는 대부분 적당한 비용 절감 효과를 보였으며, 적당한 크기의 신경망에만 해당됩니다. 실리콘밸리 스타트업인 Sageance는 대규모 작업에 적합한 작업에 약속된 전력 절감 효과를 가져올 수 있는 기술을 보유하고 있다고 밝혔습니다. 생성 AI 모델. 스타트업은 자사 시스템이 대규모 언어 모델을 실행할 수 있다고 주장합니다. 2-70B로 전화하세요 10분의 1의 힘으로 엔비디아 H100 GPU 기반 시스템은 비용은 1/20, 공간은 1/20입니다.
Sageance CEO 겸 창립자는 “내 비전은 AI를 위해 수행된 기술과 매우 차별화된 기술을 만드는 것이었습니다.”라고 말합니다. 비샬 사린. 2018년 회사가 설립되었을 때에도 그는 “전력 소비가 AI의 대량 채택에 주요 장애물이 될 것이라는 것을 깨달았습니다… 생성 AI로 인해 모델의 크기가 커지면서 문제는 훨씬 더 심각해졌습니다.”
핵심 절전 능력은 다음과 같습니다. 아날로그 AI 두 가지 근본적인 이점이 있습니다. 데이터를 이동할 필요가 없으며 기본적인 물리학을 사용하여 기계 학습의 가장 중요한 수학을 수행합니다.
그 수학 문제는 벡터를 곱한 다음 그 결과를 더하는 것입니다. 곱하고 축적하다. 초기에 엔지니어들은 전기 엔지니어의 두 가지 기본 규칙이 거의 즉각적으로 동일한 작업을 수행한다는 것을 깨달았습니다. 옴의 법칙— 전압에 컨덕턴스를 곱하면 전류와 같습니다. 신경망의 “가중치” 매개변수를 컨덕턴스로 사용하는 경우 곱셈이 수행됩니다. 키르히호프의 전류 법칙—점에 들어오고 나가는 전류의 합은 0입니다. 즉, 동일한 와이어에 연결하기만 하면 모든 곱셈을 쉽게 합산할 수 있습니다. 마지막으로 아날로그 AI에서는 신경망 매개변수를 메모리에서 컴퓨팅 회로로 이동할 필요가 없습니다. 일반적으로 컴퓨팅 자체보다 더 큰 에너지 비용이 듭니다. 왜냐하면 이미 컴퓨팅 회로에 내장되어 있기 때문입니다.
Sageance는 플래시 메모리 셀을 컨덕턴스 값으로 사용합니다. 데이터 저장에 일반적으로 사용되는 플래시 셀의 종류는 3 또는 4비트그러나 Sageance는 칩에 내장된 셀이 LLM 및 기타 소위 정밀도의 핵심 수준인 8비트를 보유할 수 있도록 하는 알고리즘을 개발했습니다. 변압기 모델. 일반적인 디지털 메모리 셀에 필요한 48개의 트랜지스터 대신 단일 트랜지스터에 8비트 숫자를 저장하는 것은 중요한 비용, 공간 및 에너지 절약이라고 30년 동안 플래시에 여러 비트를 저장하는 작업을 해온 Sarin은 말합니다. 연령.
디지털 데이터가 아날로그 전압으로 변환됩니다. [left]. 이는 플래시 메모리 셀에 효과적으로 곱해집니다. [blue]합산하여 다시 디지털 데이터로 변환 [bottom].아날로그 추론
절전 기능에 추가되는 점은 플래시 셀이 “깊은 임계값 이하”라는 상태에서 작동된다는 것입니다. 즉, 거의 켜져 있지 않은 상태에서 작동하고 있으며 전류가 거의 발생하지 않습니다. 디지털 회로에서는 계산이 느려질 수 있기 때문에 그렇게 하면 안 됩니다. 하지만 아날로그 연산이 한꺼번에 이루어지기 때문에 속도에는 지장을 주지 않습니다.
아날로그 AI 문제
이 모든 것이 막연하게 친숙하게 들린다면 그럴 것입니다. 2018년에는 세 명의 스타트업 플래시 기반 아날로그 AI 버전을 추구했습니다. 신티안트 결국 지금까지 6개의 칩을 대량 생산하는 디지털 방식에 대한 아날로그 접근 방식을 포기했습니다. 신화적인 어려움 하지만 계속 그랬듯이 아나플래시. 기타 특히 IBM 리서치상변화 메모리나 저항성 RAM 등 플래시 이외의 비휘발성 메모리에 의존하는 칩을 개발했습니다.
일반적으로 아날로그 AI는 특히 데이터 센터에서 유용할 수 있는 크기로 확장할 때 잠재력을 충족하는 데 어려움을 겪었습니다. 주요 어려움 중에는 전도도 셀의 자연적인 변화가 있습니다. 이는 두 개의 다른 셀에 저장된 동일한 숫자가 두 개의 다른 컨덕턴스를 초래할 수 있음을 의미할 수 있습니다. 더 나쁜 것은 이러한 컨덕턴스가 시간이 지남에 따라 변하고 온도에 따라 변할 수 있다는 것입니다. 이 잡음은 결과를 나타내는 신호를 사라지게 하며, 심층 신경망의 여러 계층을 통해 단계적으로 잡음이 합성될 수 있습니다.
Sageance의 솔루션은 칩의 참조 셀 세트이자 이를 사용하여 다른 셀을 교정하고 온도 관련 변화를 추적하는 독점 알고리즘이라고 Sarin은 설명합니다.
아날로그 AI를 개발하는 사람들이 겪는 또 다른 불만의 원인은 곱셈 및 누적 프로세스의 결과를 디지털화하여 신경망의 다음 계층으로 전달한 후 다시 아날로그 전압 신호로 변환해야 한다는 것입니다. 각 단계에는 칩의 면적을 차지하고 전력을 흡수하는 아날로그-디지털 및 디지털-아날로그 변환기가 필요합니다.
Sarin에 따르면 Sageance는 두 회로 모두의 저전력 버전을 개발했습니다. 디지털-아날로그 변환기의 전력 수요는 깊은 하위 임계값 모드에서 플래시 메모리를 작동하기 위해 회로가 매우 좁은 범위의 전압을 전달해야 한다는 사실로 인해 도움이 됩니다.
시스템 및 향후 계획
2025년에 출시될 Sageance의 첫 번째 제품은 서버 기반 LLM보다 상당히 가벼운 리프트인 비전 시스템을 대상으로 합니다. “이것은 우리에게 획기적인 제품이며 매우 빠르게 따라갈 수 있는 제품입니다. [by] 생성 AI입니다.”라고 Sarin은 말합니다.
Sageance의 미래 시스템은 UCIe(Universal Chiplet Interconnect) 표준을 따르는 인터포저를 통해 프로세서와 메모리에 연결된 3D 스택 아날로그 칩으로 구성됩니다.아날로그 추론
생성 AI 제품은 주로 통신 다이 위에 아날로그 AI 칩렛을 수직으로 쌓아 비전 칩에서 확장됩니다. 이러한 스택은 Delphi라는 단일 패키지의 CPU 다이와 고대역폭 메모리 DRAM에 연결됩니다.
시뮬레이션에서 Delphis로 구성된 시스템은 59kW를 소비하는 초당 666,000개의 토큰으로 Llama2-70B를 실행하는 반면, 엔비디아 H100기반 시스템, Sageance 주장.