Moshe Tanach, NeuReality의 CEO 겸 공동 창립자 – 인터뷰 시리즈

antoine tardif

11개월 ago

Moshe Tanach, NeuReality의 CEO 겸 공동 창립자 – 인터뷰 시리즈

모세 타나크 NeuReality의 CEO이자 공동 창립자입니다. NeuReality를 설립하기 전에 Moshe는 Marvell 및 Intel에서 엔지니어링 이사로 재직하면서 복잡한 무선 및 네트워킹 제품의 개발을 대량 생산으로 이끌었습니다. 그는 또한 DesignArt Networks(나중에 Qualcomm에 인수됨)에서 R&D AVP로 근무하면서 4G 기지국 제품 개발에 기여했습니다.

뉴리얼리티의 임무는 AI 채택을 단순화하는 것입니다. AI에 대한 시스템 수준 접근 방식을 취함으로써 NeuReality의 업계 전문가 팀은 AI 추론을 전체적으로 제공하여 문제점을 식별하고 AI를 저렴하고 접근 가능하게 만드는 특수 목적의 실리콘-소프트웨어 AI 추론 솔루션을 제공합니다.

Marvell, Intel 및 DesignArt-Networks에서 엔지니어링 프로젝트를 주도한 폭넓은 경험을 바탕으로 NeuReality를 공동 창립하게 된 계기는 무엇이며, 이전 역할이 회사의 비전과 방향에 어떤 영향을 미쳤습니까?

NeuReality는 훈련된 AI 모델과 소프트웨어를 프로덕션 수준 AI 데이터 센터에 배포하는 AI 추론이 불가피한 미래 비용, 복잡성 및 기후 문제를 해결하기 위해 처음부터 구축되었습니다. AI 훈련은 AI가 생성되는 방식입니다. AI 추론은 그것이 사용되는 방식과 전 세계 수십억 명의 사람 및 장치와 상호 작용하는 방식입니다.

우리는 시스템 엔지니어로 구성된 팀이므로 GPU 및 모든 클래스의 특수 목적 AI 가속기를 포함하여 엔드투엔드 AI 추론의 모든 측면을 모든 각도에서 살펴봅니다. 2015년으로 돌아가 보면 모든 GPU, TPU, LPU, NRU, ASIC, FPGA 등 CPU 기반 AI 칩과 시스템이 2020년까지 상당한 벽에 부딪힐 것이라는 사실이 분명해졌습니다. 원시 성능 측면에서는 더 좋아지고 빨라졌지만 기본 인프라는 이를 따라잡지 못했습니다.

결과적으로 우리는 CPU 및 NIC 제조업체와 같이 성공적인 비즈니스를 보호하는 관료주의로 가득 찬 거대 기업에서 벗어나 개방적이고 불가지론적이며 AI 추론을 위해 특별히 구축된 더 나은 AI 아키텍처로 업계를 혁신하기로 결정했습니다. 이상적인 AI 추론을 재구성한 결론 중 하나는 호스트 CPU와 NIC를 대체하는 새로운 NR1 서버 온 칩으로 구동되는 새로운 AI 컴퓨팅 및 네트워크 인프라가 GPU 활용도와 시스템 수준 효율성을 향상한다는 것입니다. 모든 GPU 또는 AI 가속기의 구성 요소 브랜드이자 동반자로서 우리는 오늘날 조직의 65%가 AI를 혁신하고 채택하는 것을 방해하는 시장 장벽, 즉 실제로 필요한 것보다 더 많이 구매하게 만드는 활용도가 낮은 GPU(50% 이상 유휴 상태로 실행되기 때문에)를 제거할 수 있습니다. 시간) – 동시에 에너지 소비, AI 데이터 센터 부동산 문제 및 운영 비용을 줄입니다.

이는 제가 30년 동안 배우고 실천한 모든 것을 바탕으로 AI 시스템 아키텍처를 더 나은 방향으로 실제로 변화시켜 업계 전반에 걸쳐 새로운 AI 혁신가를 위한 문을 열고 CPU 병목 현상, 복잡성 및 탄소 배출량을 제거할 수 있는 일생에 한 번 있는 기회입니다.

NeuReality의 임무는 AI를 민주화하는 것입니다. “모두를 위한 AI”가 당신에게 어떤 의미인지, 그리고 NeuReality가 이 비전을 어떻게 달성할 계획인지 자세히 설명해주실 수 있나요?

우리의 임무는 모든 GPU 또는 AI 가속기의 최대 용량을 활용하여 투자에서 더 많은 것을 얻을 수 있도록 크고 작은 모든 조직이 더 쉽게 접근하고 저렴하게 AI를 민주화하는 것입니다. 즉, 50% 이상 유휴 상태로 실행되는 GPU를 추가로 구입하는 대신 구입한 GPU에서 더 많은 것을 얻으십시오. 우리는 AI 가속기를 최대 100%까지 향상시키는 동시에 에너지 효율성을 최대 15배까지 높이고 시스템 비용을 최대 90%까지 절감할 수 있습니다. 이는 엄청난 수준의 개선입니다. 우리는 AI 시대에 맞춘 세계 최초의 데이터센터 시스템 아키텍처인 NR1 AI 추론 솔루션을 통해 이 비전을 달성할 계획입니다. 탄소 배출량 감소라는 추가적인 이점과 함께 대용량, 다양한 AI 데이터 파이프라인을 저렴하고 효율적으로 실행합니다.

모두를 위한 AI를 달성한다는 것은 AI를 사용하기 쉽게 만드는 것을 의미합니다. NeuReality에서는 AI 인프라 배포, 관리 및 확장성을 단순화하고 비즈니스 프로세스와 수익성을 향상하며 공중 보건, 안전, 법 집행 및 고객 서비스와 같은 부문을 발전시킵니다. 우리의 영향력은 의료 영상, 임상 시험, 사기 탐지, AI 콘텐츠 제작 등 다양한 분야에 걸쳐 있습니다.

현재 최초의 상용 NR1-S AI 추론 어플라이언스는 Qualcomm Cloud AI 100 Ultra 가속기와 클라우드 서비스 제공업체인 Cirrascale을 통해 사용할 수 있습니다.

NR1 AI 추론 솔루션은 AI 시대에 맞춤화되고 AI 추론을 위해 특별히 제작된 최초의 데이터 센터 시스템 아키텍처로 선전됩니다. NR1의 개발을 이끈 주요 혁신과 돌파구는 무엇이었습니까?

NR1™은 모든 AI 가속기 및 GPU를 완벽하게 보완하는 개방적이고 완벽하게 호환되는 AI 컴퓨팅 및 네트워킹 인프라로서 우리가 AI 업계에 설계하고 제공한 전체 실리콘-소프트웨어 시스템 아키텍처의 이름입니다. 이 엔드투엔드 NR1 솔루션을 만들고 우리를 차별화하는 가장 독특하고 흥미로운 혁신을 분류해야 한다면 다음과 같이 말하고 싶습니다.

최적화된 AI 컴퓨팅 그래프: 팀은 AI 및 미디어 처리, 데이터베이스 등과 같은 다양한 기타 워크로드에 중요한 컴퓨팅 그래프 처리를 최적화하기 위해 프로그래밍 가능한 그래프 실행 가속기를 설계했습니다. 컴퓨팅 그래프는 종속성이 있는 일련의 작업을 나타내며, 이러한 광범위한 적용 가능성으로 인해 NR1은 GPU 및 기타 AI 가속기의 슈퍼 부스팅을 넘어 잠재적으로 파괴적인 역할을 할 수 있습니다. 사전 처리된 AI 데이터 및 소프트웨어 API를 기반으로 최적화된 컴퓨팅 그래프(CG)를 생성하여 AI 모델 배포를 단순화하여 상당한 성능 향상을 가져옵니다.
NR1 NAPU™(네트워크 주소 지정 처리 장치): 당사의 AI 추론 아키텍처는 AI 사전 및 사후 처리를 위한 직접 네트워크 액세스를 가능하게 하는 7nm 서버 온 칩인 NR1 NAPU™에 의해 구동됩니다. 일반적인 범용 호스트 CPU보다 작은 NR1 칩에 6.5배 더 많은 성능을 탑재했습니다. 전통적으로 전처리 작업(예: 데이터 정리, 포맷팅, 특징 추출)과 후처리 작업(예: 결과 해석, 포맷팅)은 CPU에서 처리됩니다. 이러한 작업을 NR1 NAPU™에 오프로드함으로써 CPU와 NIC를 모두 교체합니다. 이를 통해 병목 현상이 줄어들어 전체 처리 속도가 빨라지고 응답 시간이 매우 빨라지며 AI 쿼리당 비용이 낮아집니다. 이를 통해 병목 현상이 줄어들고 전체 처리 속도가 빨라집니다.
NR1™ AI-Hypervisor™ 기술: NR1의 특허받은 하드웨어 기반 AI-Hypervisor™는 AI 작업 조정 및 리소스 활용을 최적화하여 효율성을 향상하고 병목 현상을 줄입니다.
NR1™ AI-over-Fabric™ 네트워크 엔진: NR1에는 동일한 추론 서버 또는 NR1-S AI 추론 내에서 GPU 또는 AI 가속기와 결합된 여러 NR1 칩에 걸쳐 원활한 네트워크 연결과 AI 리소스의 효율적인 확장을 보장하는 고유한 AI-over-Fabric™ 네트워크 엔진이 통합되어 있습니다. 기구.

NeuReality의 최근 성능 데이터는 상당한 비용과 에너지 절감을 강조합니다. NR1이 어떻게 기존 시스템에 비해 최대 90%의 비용 절감과 15배 향상된 에너지 효율성을 달성했는지 자세히 설명해 주시겠습니까?

NeuReality의 NR1은 AI 추론의 비용과 에너지 소비를 각각 최대 90%와 15배까지 줄입니다. 이는 다음을 통해 달성됩니다.

특수 실리콘: 당사의 특수 목적 AI 추론 인프라는 CPU와 NIC의 기능을 하나로 통합하고 추론에 CPU가 필요하지 않은 NR1 NAPU™ 서버 온 칩을 기반으로 합니다. 궁극적으로 NR1은 가능한 가장 효율적인 방법으로 AI 가속기 또는 GPU의 출력을 최대화합니다.
최적화된 아키텍처: AI 데이터 흐름을 간소화하고 AI 사전 및 사후 처리를 NR1 NAPU™ 내에서 직접 통합함으로써 CPU를 오프로드하고 교체합니다. 그 결과 대기 시간이 줄어들고 선형 확장성이 향상되며 AI 쿼리당 비용이 낮아집니다.
유연한 배포: NR1은 두 가지 주요 방법으로 구입할 수 있습니다. 1) 기존 AI 가속기 카드와 쌍을 이루도록 설계된 여러 NR1 NAPU(일반적으로 10개)를 수용하는 PCIe 카드인 NR1-M™ 모듈 내부. 2) 즉시 사용 가능한 AI 추론 시스템으로 NR1 NAPU를 동일한 수의 AI 가속기(GPU, ASIC, FPGA 등)와 결합하는 NR1-S™ 어플라이언스 내부.

11월 슈퍼컴퓨팅 2024에서는 16x Qualcomm Cloud AI 100 Ultra 가속기당 4x NR1 칩을 갖춘 NR1-S 어플라이언스를 시연하게 됩니다. 우리는 Nvidia AI 추론 칩으로 동일한 테스트를 수행했습니다. NeuReality는 개방형, 특수 목적 아키텍처를 통해 AI 추론을 혁신하고 있습니다.

실제 애플리케이션에서 Nvidia® H100 또는 L40S GPU를 사용하는 기존 CPU 중심 추론 서버와 비교하여 NR1-S AI 추론 어플라이언스는 Qualcomm® Cloud AI 100 가속기와 어떻게 일치합니까?

Qualcomm Cloud AI 100 또는 NVIDIA H100 또는 L40S GPU와 결합된 NR1은 Llama 3, 컴퓨터 비전, 자연어 처리 및 음성 인식과 같은 대규모 언어 모델 전반에 걸쳐 실제 AI 애플리케이션에서 기존 CPU 중심 추론 서버에 비해 상당한 성능 향상을 제공합니다. . 즉, NR1을 사용하여 AI 추론 시스템을 실행하면 개별적으로(단일 양식) 또는 함께(다중 양식) 이미지, 사운드, 언어 및 텍스트 전반에 걸쳐 성능, 시스템 비용, 에너지 효율성 및 응답 시간이 최적화됩니다.

최종 결과는 무엇입니까? NR1과 함께 사용하면 고객은 원하는 성능을 달성하기 위해 더 많은 GPU를 구입하는 대신 값비싼 GPU 투자로부터 더 많은 것을 얻을 수 있습니다.

NR1은 GPU 활용도 극대화 외에도 탁월한 효율성을 제공하여 가격 대비 성능이 50~90% 향상되고 에너지 효율성이 최대 13~15배 향상됩니다. 이는 AI 인프라에 대한 상당한 비용 절감과 환경 영향 감소로 이어집니다.

NR1-S는 성능 저하 없이 선형 확장성을 보여줍니다. 이러한 원활한 확장성을 가능하게 하는 기술적 측면을 설명할 수 있습니까?

NR1 칩을 모든 유형 또는 수량의 AI 가속기와 결합하는 NR1-S 어플라이언스는 AI 인프라를 재정의합니다. 우리는 CPU 중심의 한계를 뛰어넘어 새로운 수준의 성능과 효율성을 달성했습니다.

기존의 NIC-CPU-가속기 병목 현상 대신 NR1-S는 네트워크 주소 지정 가능 처리 장치(NAPU) 내에서 직접 네트워크 액세스, AI 사전 처리 및 사후 처리를 통합합니다. 일반적으로 시스템당 10개의 NAPU를 사용하여 각각 비전, 오디오, DSP 처리 등의 작업을 처리하고 AI-Hypervisor™ 오케스트레이션 워크로드를 통해 간소화된 AI 데이터 흐름이 달성됩니다. 이는 선형 확장성으로 해석됩니다. 더 많은 가속기를 추가하면 비례적으로 더 많은 성능을 얻을 수 있습니다.

결과는? AI 가속기의 100% 활용이 지속적으로 관찰됩니다. 전반적인 비용과 에너지 효율성은 사용되는 특정 AI 칩에 따라 달라지지만, 하드웨어 투자 극대화와 향상된 성능은 지속적으로 제공됩니다. AI 추론에는 확장이 필요하므로 NR1-S는 기존 아키텍처에 대한 강력한 대안을 제공합니다.

NeuReality는 광범위한 AI 채택에 대한 장벽을 해결하는 것을 목표로 합니다. 기업이 AI를 채택할 때 직면하는 가장 중요한 과제는 무엇이며, 귀사의 기술은 이를 극복하는 데 어떻게 도움이 됩니까?

제대로 구현되지 않으면 AI 소프트웨어와 솔루션이 문제가 될 수 있습니다. 많은 기업에서는 AI 시스템을 구축하고 확장하는 데 드는 비용과 복잡성으로 인해 AI를 채택할 수 없습니다. 오늘날의 AI 솔루션은 일반적으로 훈련 포드의 효율성이 낮고 추론 서버의 병목 현상이 높아 추론에 최적화되어 있지 않습니다. 이러한 과제를 해결하고 AI에 대한 접근성을 높이기 위해 우리는 NAPU로 구동되는 컴퓨팅 및 네트워킹 인프라인 최초의 완전한 AI 추론 솔루션을 개발했습니다. 이는 동반 AI 가속기를 최대한 활용하고 과도한 비용 및 에너지 소비에 대한 시장 장벽을 줄입니다. .

AI 추론에 대한 우리의 시스템 수준 접근 방식은 이미 많은 혁신과 경쟁이 있는 곳에서 더 나은 GPU 또는 AI 가속기를 개발하려는 노력과 비교하여 수십 명의 AI 추론 칩 및 시스템 혁신업체의 상당한 업계 격차를 메우고 있음을 의미합니다. 우리 팀은 문제점, 아키텍처 격차 및 AI 워크로드 예측을 파악하여 체계적이고 전체적으로 AI 추론의 단점을 공격하여 최초로 특별히 제작된 실리콘-소프트웨어, CPU가 없는 AI 추론 아키텍처를 제공했습니다. . 또한 Python 및 Kubernetes의 개방형 표준과 NeuReality Toolchain, 프로비저닝 및 추론 API를 결합하여 하향식 AI 소프트웨어 스택을 개발함으로써 당사의 통합 소프트웨어 도구 세트는 모든 구성 요소를 단일 고품질 UI/UX로 결합합니다.

경쟁이 치열한 AI 시장에서 NeuReality가 다른 AI 추론 솔루션 제공업체와 차별화되는 점은 무엇입니까?

간단히 말해서 우리는 개방적이고 가속기에 구애받지 않습니다. NR1 추론 인프라가 강화됩니다 어느 AI 가속기(GPU, TPU, LPU, ASIC 등)는 진정으로 최적화된 엔드투엔드 시스템을 생성합니다. AI 가속기는 처음에 도입되었습니다. 돕다 CPU는 신경망과 기계 학습의 요구를 전반적으로 처리하지만 이제 AI 가속기는 너무 강력해져서 지원해야 했던 바로 그 CPU에 의해 방해를 받고 있습니다.

우리의 솔루션은 무엇입니까? NR1. 이는 완전하고 재구성된 AI 추론 아키텍처입니다. 우리의 비밀무기? NR1 NAPU™는 추가 전력을 소모하거나 비용을 들이지 않고도 AI 가속기 성능을 극대화하기 위한 공동 구성 요소로 설계되었습니다. 우리는 모든 AI 추론 칩 및 Kubernetes, Python, TensorFlow 등과 같은 널리 사용되는 소프트웨어 프레임워크와 원활하게 통합되는 개방형 생태계를 구축했습니다.

NeuReality의 개방형 접근 방식은 우리가 AI 환경과 경쟁하지 않는다는 것을 의미합니다. 우리는 전략적 파트너십과 기술 협력을 통해 이를 보완하기 위해 왔습니다. 우리는 퍼즐의 누락된 조각을 제공합니다. CPU 없음 성능을 벤치마킹하기 위해 AI 가속기를 잠금 해제할 뿐만 아니라 기업과 정부가 AI를 더 쉽게 채택할 수 있도록 지원하는 추론 아키텍처입니다. NVIDIA H100, Google TPU 또는 AMD MI300의 모든 기능을 활용하여 그에 맞는 인프라를 제공한다고 상상해 보십시오.

NeuReality의 개방적이고 효율적인 아키텍처는 경쟁의 장을 평준화하여 모든 사람이 AI에 더 쉽게 접근하고 저렴하게 만들 수 있습니다. 저는 핀테크, 생명공학, 의료기술 등 다양한 산업 분야에서 NR1의 이점을 직접 경험하는 것을 보고 싶습니다. 기존 CPU 바인딩 시스템과 최신 NR1 인프라의 AI 솔루션을 비교하고 차이점을 확인하세요. 오늘날 기업과 정부의 35%만이 AI를 채택했으며 이는 믿을 수 없을 정도로 낮은 자격 기준을 기반으로 합니다. 내년 이맘때까지 50% 이상의 기업 고객이 지구에 해를 끼치거나 은행 손실을 입지 않고 AI를 채택할 수 있도록 합시다.

찾고 앞으로 사회에서 AI의 역할에 대한 NeuReality의 장기 비전은 무엇이며, 귀하의 회사가 이 미래에 어떻게 기여할 것으로 보시나요?

저는 AI가 모든 사람에게 혜택을 주고 혁신을 촉진하며 삶을 개선하는 미래를 상상합니다. 우리는 단지 기술을 구축하는 것이 아닙니다. 우리는 더 나은 미래를 위한 기반을 구축하고 있습니다.

우리의 NR1은 그 비전의 핵심입니다. 이는 대규모 AI 비즈니스 채택을 방해하는 비용 및 복잡성 장벽을 무너뜨리기 시작하는 완전한 AI 추론 솔루션입니다. 우리는 인프라와 인프라를 모두 재구상했습니다. 그리고 운영 비용이나 에너지 소비를 늘리지 않고도 GPU, AI 가속기의 출력을 극대화하는 혁신적인 시스템을 제공하는 아키텍처입니다.

비즈니스 모델은 제가 이전에 쓴 것처럼 집중된 AI 독재에 대한 실제 선택권을 확장하고 최종 고객에게 제공하는 것이 정말 중요합니다. 대신에 우리는 실리콘이 작동하는 개방형 생태계를 구축하고 있습니다. ~와 함께 다른 실리콘이 아닙니다. 그렇기 때문에 우리는 모든 AI 가속기, 개방형 모델 및 소프트웨어와 원활하게 통합되어 설치, 관리 및 확장이 최대한 쉽게 되도록 NR1을 설계했습니다.

하지만 우리는 거기서 멈추지 않습니다. 우리는 파트너와 협력하여 다양한 AI 워크로드 전반에 걸쳐 우리의 기술을 검증하고 클라우드 서비스 제공업체, 하이퍼 스케일러 및 컴패니언 칩 제조업체를 통해 “서비스로서의 추론” 및 “서비스로서의 LLM”을 제공하고 있습니다. 우리는 고급 AI를 모두가 접근 가능하고 저렴하게 만들고 싶습니다.

AI 추론 성능, 에너지 효율성, 경제성을 두 자릿수 비율로 높일 수 있다면 어떤 가능성이 있는지 상상해 보세요. 더 많은 목소리와 선택이 현실이 되는 강력한 AI 기반 사회를 상상해 보세요. 따라서 우리 모두는 AI가 일상적인 데이터 센터 운영에 구현될 때 비즈니스 영향과 ROI를 입증하는 까다로운 작업을 수행해야 합니다. 단순한 AI 모델 역량이 아닌 혁신적인 AI 구현에 집중해 보겠습니다.

이것이 우리가 AI가 모든 사람에게 혜택을 주는 미래, 즉 이익 마진, 사람 및 지구를 위한 승리에 기여하는 방법입니다.

훌륭한 인터뷰에 감사드립니다. 더 자세히 알고 싶은 독자들은 방문하시기 바랍니다. 뉴리얼리티.

게시물 Moshe Tanach, NeuReality의 CEO 겸 공동 창립자 – 인터뷰 시리즈 처음 등장한 Unite.AI.

관련된 글: