Jason Knight는 머신 러닝 부문의 공동 창립자이자 부사장입니다. 옥토AI이 플랫폼은 앱 빌더가 클라우드나 온프레미스에서 AI 애플리케이션을 실행, 조정, 확장할 수 있는 완전한 스택을 제공합니다.
OctoAI는 ML 이식성과 성능을 위한 오픈소스 스택인 Apache TVM의 원래 제작자에 의해 워싱턴 대학교에서 분사되었습니다. TVM은 ML 모델이 모든 하드웨어 백엔드에서 효율적으로 실행될 수 있도록 하며, Amazon Alexa와 같은 인기 있는 소비자 기기의 아키텍처에서 빠르게 핵심 부분이 되었습니다.
OctoAI를 창립하게 된 계기와 해결하고자 했던 핵심 문제를 공유해 주시겠습니까?
AI는 전통적으로 수학과 고성능 컴퓨팅에 익숙한 사람만이 접근할 수 있는 복잡한 분야였습니다. 하지만 AI는 텍스트, 음성, 이미지의 궁극적인 컴퓨팅 인터페이스를 잠금 해제하고 예제와 피드백으로 프로그래밍하며 지구상의 모든 사람에게 컴퓨팅의 모든 힘을 제공합니다. AI 이전에는 프로그래머만이 난해한 프로그래밍 언어 텍스트를 작성하여 컴퓨터가 원하는 것을 하도록 할 수 있었습니다.
OctoAI는 더 많은 사람들이 AI를 사용하고 혜택을 누릴 수 있도록 그 현실로 가는 길을 가속화하기 위해 만들어졌습니다. 그리고 사람들은 차례로 AI를 사용하여 과학, 의학, 예술 등을 가속화함으로써 더 많은 혜택을 창출할 수 있습니다.
인텔에서의 경험을 되돌아볼 때, 이전 직책이 OctoAI의 공동 창립자이자 개발을 이끄는 데 어떤 도움이 되었나요?
인텔과 AI 하드웨어, 바이오테크 스타트업은 저에게 AI가 가장 정교한 기술 기업에도 얼마나 어려운지, 그리고 AI를 사용하는 방법을 알아낸 사람들에게는 얼마나 귀중한지를 보여주는 관점을 제공했습니다. 그리고 AI의 혜택을 받는 사람과 받지 못하는 사람 간의 격차는 주로 인프라, 컴퓨팅, 모범 사례의 차이이며, 마법이 아닙니다.
OctoStack은 현재 시중에 판매되는 다른 AI 배포 솔루션과 어떤 점이 다릅니까?
OctoStack은 어디에서나 생성적 AI 모델을 제공하기 위해 특별히 설계된 업계 최초의 완전한 기술 스택입니다. 엔터프라이즈 규모에서 고도로 최적화된 추론, 모델 사용자 정의 및 자산 관리를 제공하는 턴키 프로덕션 플랫폼을 제공합니다.
OctoStack을 사용하면 조직이 데이터, 모델 및 하드웨어를 완벽하게 제어하면서 선호하는 환경에서 모든 모델을 실행하여 AI 자율성을 달성할 수 있습니다. 또한 GPT-4와 같은 다른 솔루션에 비해 최대 12배의 절감 효과와 함께 타의 추종을 불허하는 성능과 비용 효율성을 제공합니다.
OctoStack을 사용하여 비공개 환경에 AI 모델을 배포하는 이점을 설명해 주시겠습니까?
요즘 모델은 어디에나 있지만, 이러한 모델을 실행하고 자체 데이터에 적용하기 위한 적절한 인프라를 조립하는 것이 비즈니스 가치 플라이휠이 진정으로 회전하기 시작하는 곳입니다. 가장 민감한 데이터에 이러한 모델을 사용한 다음 이를 통찰력, 더 나은 신속한 엔지니어링, RAG 파이프라인 및 미세 조정으로 전환하면 생성 AI에서 가장 큰 가치를 얻을 수 있습니다. 그러나 가장 정교한 회사를 제외한 모든 회사가 이를 혼자 수행하기는 여전히 어렵습니다. 이때 OctoStack과 같은 턴키 솔루션이 가속화하고 실무자를 위해 모범 사례를 한곳에 모을 수 있습니다.
OctoStack을 사용하여 개인 환경에 AI 모델을 배포하면 보안 강화 및 데이터와 모델에 대한 제어를 포함한 여러 가지 이점이 있습니다. 고객은 자체 VPC 또는 온프레미스에서 생성 AI 애플리케이션을 실행하여 데이터가 안전하게 유지되고 선택한 환경 내에 있도록 할 수 있습니다. 이 접근 방식은 또한 기업이 오픈 소스, 맞춤형 또는 독점적이든 모든 모델을 실행할 수 있는 유연성을 제공하는 동시에 비용 절감 및 성능 개선의 이점을 누릴 수 있습니다.
다양한 하드웨어를 지원하도록 OctoStack을 최적화하는 과정에서 어떤 어려움이 있었나요? 그리고 이러한 어려움을 어떻게 극복하셨나요?
다양한 하드웨어를 지원하도록 OctoStack을 최적화하려면 NVIDIA 및 AMD GPU와 AWS Inferentia와 같은 다양한 기기에서 호환성과 성능을 보장해야 했습니다. OctoAI는 수년간의 연구 개발을 통해 개발된 심층적인 AI 시스템 전문 지식을 활용하여 추가 하드웨어 유형, GenAI 사용 사례 및 모범 사례를 지속적으로 업데이트하고 지원하는 플랫폼을 만들어 이러한 과제를 극복했습니다. 이를 통해 OctoAI는 시장을 선도하는 성능과 비용 효율성을 제공할 수 있습니다.
또한 다중 모달리티, 함수 호출, 엄격한 JSON 스키마 따르기, 효율적인 미세 조정 호스팅 등 생성 AI의 최신 기능을 회사 내부 개발자에게 제공하면 AI 이륙 지점을 앞당길 수 있습니다.
OctoAI는 Apache TVM을 활용한 풍부한 역사를 가지고 있습니다. 이 프레임워크는 플랫폼의 기능에 어떤 영향을 미쳤습니까?
우리는 정교한 개발자가 GPU 및 가속기용 효율적인 AI 라이브러리를 더 쉽게 작성할 수 있도록 Apache TVM을 만들었습니다. 우리가 이렇게 한 이유는 당시와 지금이나 AI 추론에 GPU 및 가속기 하드웨어에서 최대한의 성능을 얻는 것이 중요했기 때문입니다.
그 이후로 우리는 동일한 사고방식과 전문 지식을 Gen AI 서비스 스택 전반에 적용하여 더 광범위한 개발자에게 자동화를 제공해 왔습니다.
OctoStack이 제공하는 중요한 성능 개선 사항(예: 대규모 배포 시 성능이 10배 향상)에 대해 설명해 주시겠습니까?
OctoStack은 속도나 품질을 희생하지 않고도 GPT-4와 같은 다른 모델에 비해 최대 12배의 절감을 포함하여 상당한 성능 개선을 제공합니다. 또한 4배 더 나은 GPU 활용도와 50%의 운영 비용 절감을 제공하여 조직이 대규모 배포를 효율적이고 비용 효율적으로 실행할 수 있도록 합니다.
OctoStack이 클라이언트의 AI 배포를 크게 개선한 주목할 만한 사용 사례를 몇 가지 공유해 주시겠습니까?
주목할 만한 사용 사례는 생성적 대화형 AI를 사용하여 전화 사기에 맞서는 글로벌 서비스인 Apate.ai입니다. Apate.ai는 OctoStack을 활용하여 여러 지역에서 언어 모델 모음을 효율적으로 실행하여 OctoStack의 유연성, 규모 및 보안의 이점을 얻었습니다. 이 배포를 통해 Apate.ai는 여러 언어와 지역 방언을 지원하는 사용자 지정 모델을 제공하여 성능 및 보안에 민감한 요구 사항을 충족할 수 있었습니다.
또한, 우리는 고객 OpenPipe를 위해 수백 개의 미세 조정을 제공합니다. 그들이 이들 각각에 대한 전용 인스턴스를 스핀업한다면, 그들의 고객 사용 사례는 그들이 사용 사례를 성장시키고 발전시키고 비용 효율적인 가격으로 최대 출력 품질을 위해 매개변수 효율적인 미세 조정을 지속적으로 재교육함에 따라 실행 불가능할 것입니다.
훌륭한 인터뷰에 감사드립니다. 더 자세히 알고 싶은 독자는 다음을 방문하세요. 옥토AI.
게시물 Jason Knight는 OctoAI의 공동 창립자이자 ML 부사장입니다. – 인터뷰 시리즈 처음 등장 유나이트.AI.