Charles Xie, Zilliz 창립자 겸 CEO – 인터뷰 시리즈

Date:

찰스 시에 Zilliz의 창립자이자 CEO이며 AI 및 LLM 애플리케이션을 위한 차세대 데이터베이스 및 검색 기술 구축에 중점을 두고 있습니다. Zilliz에서 그는 또한 생산 준비가 완료된 AI를 위한 세계에서 가장 인기 있는 오픈 소스 벡터 데이터베이스인 Milvus를 발명했습니다. 그는 현재 LF AI & Data Foundation의 이사회 멤버이며 2020년과 2021년에 이사회 의장을 역임했습니다. Charles는 이전에 Oracle에서 Oracle 12c 클라우드 데이터베이스 프로젝트의 창립 엔지니어로 근무했습니다. Charles는 University of Wisconsin-Madison에서 컴퓨터 과학 석사 학위를 취득했습니다.

질리즈 뒤에 팀이 있어? LF AI 연®, 널리 사용되는 오픈 소스 벡터 데이터베이스입니다. 이 회사는 기업, 조직, 개인 모두가 AI에 더 쉽게 접근할 수 있도록 데이터 인프라 관리를 단순화하는 데 중점을 두고 있습니다.

Zilliz 창립 비하인드 스토리와 Milvus를 개발하고 벡터 데이터베이스에 집중하게 된 계기를 공유해 주실 수 있나요?

데이터베이스 분야에서의 나의 경력은 Oracle 12c 다중 테넌트 데이터베이스 팀의 창립 멤버였던 Oracle에서 소프트웨어 엔지니어로 근무한 6년을 포함하여 15년이 넘었습니다. 이 기간 동안 저는 중요한 한계를 발견했습니다. 구조화된 데이터는 잘 관리되었지만 구조화되지 않은 데이터(전체 데이터의 90%를 나타냄)는 대부분 활용되지 않았으며 단 1%만이 의미 있게 분석되었습니다.

2017년에는 비정형 데이터를 처리하는 AI의 능력이 향상되면서 전환점이 되었습니다. NLP의 발전은 구조화되지 않은 데이터가 벡터 임베딩으로 변환되어 의미론적 의미를 잠금 해제할 수 있는 방법을 보여주었습니다. 이것이 제가 “수백만 개의 데이터”를 관리하겠다는 비전을 가지고 Zilliz를 설립하게 된 계기가 되었습니다. 벡터 임베딩은 구조화되지 않은 데이터와 실행 가능한 통찰력 사이의 격차를 해소하는 초석이 되었습니다. 우리는 이 비전을 실현하기 위해 특별히 제작된 벡터 데이터베이스로 Milvus를 개발했습니다.

지난 2년 동안 업계에서는 벡터 데이터베이스가 비정형 데이터 관리의 기초로 인식되면서 이러한 접근 방식을 검증했습니다. 우리에게 이는 기술 그 이상입니다. 인류가 AI 시대에 구조화되지 않은 데이터의 잠재력을 활용할 수 있도록 역량을 강화하는 것입니다.

6년 전 창립 이후 Zilliz의 여정은 어떻게 발전해 왔으며, 벡터 데이터베이스 공간을 개척하는 동안 어떤 주요 과제에 직면했습니까?

여행은 변혁적이었습니다. 7년 전 Zilliz를 시작했을 때 진짜 과제는 자금 조달이나 채용이 아니라 완전히 미지의 영역에서 제품을 구축하는 것이었습니다. 기존 로드맵, 모범 사례 또는 확립된 사용자 기대가 없었기 때문에 우리는 자체 경로를 계획해야 했습니다.

우리의 돌파구는 Milvus의 오픈 소스와 함께 이루어졌습니다. 채택 장벽을 낮추고 커뮤니티 참여를 촉진함으로써 우리는 제품을 반복하고 개선하기 위한 귀중한 사용자 피드백을 얻었습니다. Milvus가 2019년에 출시되었을 때 연말까지 약 30명의 사용자를 확보했습니다. 이는 2020년까지 200개 이상으로 늘어났고 곧이어 거의 1,000개로 늘어났습니다.

오늘날 벡터 데이터베이스는 새로운 개념에서 AI 시대의 필수 인프라로 전환되어 우리가 시작한 비전을 검증했습니다.

벡터 데이터베이스 회사로서 Zilliz는 최신 AI 애플리케이션에서 다중 모드 벡터 검색을 지원하기 위해 어떤 고유한 기술 기능을 제공합니까?

Zilliz는 다중 모드 벡터 검색을 지원하는 고급 기술 기능을 개발했습니다.

  1. 하이브리드 검색: 이미지의 시각적 특징과 텍스트 설명을 결합하는 등 다양한 양식에 걸쳐 동시 검색이 가능합니다.
  2. 최적화된 알고리즘: 독점적인 양자화 기술은 교차 모드 검색을 위한 재현 정확도와 메모리 효율성의 균형을 유지합니다.
  3. 실시간 및 오프라인 처리: 당사의 듀얼 트랙 시스템은 지연 시간이 짧은 실시간 쓰기와 처리량이 높은 오프라인 가져오기를 지원하여 데이터 최신성을 보장합니다.
  4. 비용 효율성: 확장 용량 인스턴스는 지능형 계층형 스토리지를 활용하여 고성능을 유지하면서 스토리지 비용을 대폭 절감합니다.
  5. 임베디드 AI 모델: 멀티모달 임베딩 및 순위 모델을 통합하여 복잡한 검색 애플리케이션 구현에 대한 장벽을 낮췄습니다.

이러한 기능을 통해 개발자는 다양한 데이터 유형을 효율적으로 처리하여 최신 AI 애플리케이션을 더욱 강력하고 다양하게 만들 수 있습니다.

텍스트와 함께 이미지, 오디오, 비디오와 같은 복잡한 실제 데이터를 처리하는 AI의 능력을 향상시키는 Multimodal RAG를 어떻게 보시나요?

다중 모드 RAG(Retrieval-Augmented Generation)는 AI의 중추적인 진화를 나타냅니다. 텍스트 기반 RAG가 두드러졌지만 대부분의 기업 데이터는 이미지, 비디오 및 오디오에 걸쳐 있습니다. 이러한 다양한 형식을 AI 워크플로우에 통합하는 능력은 매우 중요합니다.

AI 커뮤니티가 훈련에 사용할 수 있는 인터넷 텍스트 데이터의 한계에 대해 논의하고 있기 때문에 이러한 변화는 시의적절합니다. 텍스트 데이터는 한정되어 있지만 기업 비디오부터 헐리우드 영화, 오디오 녹음에 이르기까지 다양한 형태의 데이터는 활용도가 매우 낮습니다.

다중 모드 RAG는 이 미개척 저장소의 잠금을 해제하여 AI 시스템이 이러한 풍부한 데이터 유형을 처리하고 활용할 수 있도록 합니다. 이는 단지 데이터 부족 문제를 해결하는 것이 아닙니다. 현실 세계를 더 잘 이해하고 상호 작용할 수 있도록 AI 기능의 경계를 확장하는 것입니다.

Zilliz는 빠르게 성장하는 벡터 데이터베이스 시장에서 경쟁사와 어떻게 차별화됩니까?

Zilliz는 몇 가지 독특한 측면을 통해 두각을 나타내고 있습니다.

  1. 이중 정체성: 우리는 AI 기업이자 데이터베이스 기업으로서 데이터 관리와 AI 통합의 경계를 넓혀가고 있습니다.
  2. 클라우드 네이티브 디자인: Milvus 2.0은 분리된 스토리지 및 컴퓨팅 아키텍처를 채택한 최초의 분산 벡터 데이터베이스로, 1,000억 개가 넘는 벡터에 대한 확장성과 비용 효율성을 지원합니다.
  3. 독점 개선 사항: 우리의 Cardinal 엔진은 오픈 소스 Milvus의 3배, 경쟁사 대비 10배의 성능을 달성합니다. 또한 비용 효율적인 확장을 위해 디스크 기반 인덱싱과 지능형 계층 스토리지를 제공합니다.
  4. 지속적인 혁신: 하이브리드 검색 기능부터 VTS와 같은 마이그레이션 도구에 이르기까지 벡터 데이터베이스 기술을 지속적으로 발전시키고 있습니다.

오픈 소스에 대한 우리의 노력은 유연성을 보장하는 동시에 관리 서비스인 Zilliz Cloud는 운영 복잡성을 최소화하면서 엔터프라이즈급 성능을 제공합니다.

Zilliz Cloud의 중요성과 AI를 민주화하고 소규모 개발자와 기업 모두가 벡터 검색 서비스에 액세스할 수 있도록 하는 역할에 대해 자세히 설명해주실 수 있나요?

벡터 검색은 2015년부터 거대 기술 기업에서 사용해 왔지만 독점 구현으로 인해 광범위한 채택이 제한되었습니다. Zilliz에서는 두 가지 보완적인 접근 방식을 통해 이 기술을 민주화하고 있습니다.

  1. 오픈 소스: Milvus를 사용하면 개발자가 벡터 검색 인프라를 구축하고 소유하여 기술 장벽을 낮출 수 있습니다.
  2. 매니지드 서비스: Zilliz Cloud는 운영 오버헤드를 제거하여 기업이 전문 엔지니어 없이도 벡터 검색을 채택할 수 있는 간단하고 비용 효율적인 솔루션을 제공합니다.

이러한 이중 접근 방식을 통해 개발자와 기업 모두 벡터 검색에 액세스할 수 있으므로 혁신적인 AI 애플리케이션 구축에 집중할 수 있습니다.

LLM 및 기초 모델의 발전으로 AI 데이터 인프라의 다음 큰 변화는 무엇이라고 생각하시나요?

다음 큰 변화는 전 세계 데이터의 90%를 차지하는 비정형 데이터를 처리하기 위해 AI 데이터 인프라를 대대적으로 전환하는 것입니다. 구조화된 데이터용으로 설계된 기존 시스템은 이러한 변화에 적합하지 않습니다.

이러한 변화는 기본 데이터베이스부터 보안 프로토콜 및 관찰 시스템에 이르기까지 데이터 스택의 모든 계층에 영향을 미칩니다. 이는 점진적인 업그레이드가 아니라 비정형 데이터의 복잡성에 맞는 새로운 패러다임을 만드는 것입니다.

이 변환은 데이터 스택의 모든 측면에 영향을 미칩니다.

  • 기본 데이터베이스 시스템
  • 데이터 파이프라인 및 ETL 프로세스
  • 데이터 정리 및 변환 메커니즘
  • 보안 및 암호화 프로토콜
  • 규정 준수 및 거버넌스 프레임워크
  • 데이터 관찰 시스템

우리는 단순히 기존 시스템을 업그레이드하는 것이 아니라 완전히 새로운 패러다임을 구축하는 것을 목표로 하고 있습니다. 이는 도서관의 책 정리에 최적화된 세상에서 전체 인터넷을 관리하고 이해하고 처리해야 하는 세상으로 이동하는 것과 같습니다. 이러한 변화는 데이터 인프라의 모든 구성요소를 처음부터 다시 구상해야 하는 완전히 새로운 세계를 나타냅니다.

이 혁명은 데이터를 저장, 관리 및 처리하는 방법을 재정의하여 AI 혁신을 위한 막대한 기회를 열어줄 것입니다.

NVIDIA GPU 통합이 벡터 검색의 성능과 확장성에 어떤 영향을 미쳤습니까?

NVIDIA GPU의 통합으로 두 가지 주요 영역에서 벡터 검색 성능이 크게 향상되었습니다.

첫째, 벡터 데이터베이스에서 가장 계산 집약적인 작업 중 하나인 인덱스 구축입니다. 기존 데이터베이스 인덱싱과 비교하여 벡터 인덱스 구성에는 몇 배 더 많은 계산 능력이 필요합니다. GPU 가속을 활용하여 인덱스 구축 시간을 대폭 단축하여 데이터 수집 속도를 높이고 데이터 가시성을 향상시켰습니다.

둘째, GPU는 처리량이 높은 쿼리 사용 사례에 매우 중요했습니다. 시스템이 수천 또는 수만 개의 QPS(초당 쿼리)를 처리해야 하는 전자 상거래와 같은 애플리케이션에서 GPU의 병렬 처리 기능은 매우 귀중한 것으로 입증되었습니다. GPU 가속을 활용하면 짧은 대기 시간을 유지하면서 이러한 대용량 벡터 유사성 검색을 효율적으로 처리할 수 있습니다.

2021년부터 우리는 NVIDIA와 협력하여 GPU 아키텍처에 대한 알고리즘을 최적화하는 동시에 다양한 프로세서 아키텍처에서 이기종 컴퓨팅을 지원하는 시스템을 개발해 왔습니다. 이를 통해 고객은 특정 요구 사항에 가장 적합한 하드웨어 인프라를 선택할 수 있는 유연성을 얻을 수 있습니다.

벡터 데이터베이스가 AI에서 중요한 역할을 하기 때문에, 추천 시스템 및 검색과 같은 기존 사용 사례를 넘어 의료와 같은 산업까지 응용 범위가 확장되고 있다고 보시나요?

벡터 데이터베이스는 추천 시스템 및 검색과 같은 기존 애플리케이션을 넘어 이전에는 상상하지 못했던 산업으로 빠르게 확장되고 있습니다. 몇 가지 예를 공유하겠습니다.

의료 및 제약 연구에서 벡터 데이터베이스는 약물 발견에 혁명을 일으키고 있습니다. 분자는 기능적 특성을 기반으로 벡터화될 수 있으며, 범위 검색과 같은 고급 기능을 사용하여 연구자는 특정 질병이나 증상을 치료할 수 있는 모든 잠재적인 약물 후보를 발견할 수 있습니다. 기존의 top-k 검색과 달리 범위 검색은 표적으로부터 특정 거리 내에 있는 모든 분자를 식별하여 잠재적인 후보에 대한 포괄적인 보기를 제공합니다.

자율 주행에서 벡터 데이터베이스는 차량 안전과 성능을 향상시킵니다. 한 가지 흥미로운 응용 분야는 극단적인 경우를 처리하는 것입니다. 비정상적인 시나리오가 발생하면 시스템은 비슷한 상황의 대규모 데이터베이스를 신속하게 검색하여 자율 주행 모델을 미세 조정하기 위한 관련 교육 데이터를 찾을 수 있습니다.

또한 사기 탐지를 위한 금융 서비스, 위협 탐지를 위한 사이버 보안, 고객 참여 개선을 위한 표적 광고 등에서 혁신적인 애플리케이션을 확인하고 있습니다. 예를 들어, 은행 업무에서는 거래를 벡터화하고 과거 패턴과 비교하여 잠재적인 사기 활동을 식별할 수 있습니다.

벡터 데이터베이스의 힘은 분자 구조, 운전 시나리오, 금융 패턴, 보안 위협 등 모든 영역에서 유사성을 이해하고 처리하는 능력에 있습니다. AI가 계속 발전함에 따라 우리는 가능한 것의 표면만 긁는 중입니다. 방대한 양의 구조화되지 않은 데이터에서 패턴을 효율적으로 처리하고 찾는 능력은 우리가 이제 막 탐구하기 시작한 가능성을 열어줍니다.

개발자와 기업이 Zilliz 및 Milvus와 가장 잘 협력하여 AI 프로젝트에서 벡터 데이터베이스 기술을 활용할 수 있는 방법은 무엇입니까?

Zilliz 및 Milvus와 함께 벡터 데이터베이스 기술을 활용하는 두 가지 주요 경로가 있으며, 각각은 서로 다른 요구 사항과 우선 순위에 적합합니다. 유연성과 맞춤화를 중시한다면 오픈 소스 솔루션인 Milvus가 최선의 선택입니다. Milvus를 사용하면 다음을 수행할 수 있습니다.

  • 자유롭게 실험하고 배워보세요 자신의 속도에 맞춰 기술을
  • 특정 요구 사항에 맞게 솔루션을 맞춤화하세요.
  • 개발에 기여하고 코드베이스를 수정합니다.
  • 인프라에 대한 완전한 통제권 유지

하지만 인프라 관리 없이 애플리케이션 구축에만 집중하고 싶다면 Zilliz Cloud가 최적의 선택입니다. 다음을 제공합니다:

  • 원클릭 배포가 가능한 즉시 사용 가능한 솔루션
  • 엔터프라이즈급 보안 및 규정 준수
  • 고가용성 및 안정성
  • 운영 오버헤드 없이 성능 최적화

이렇게 생각해보세요. ‘만들기’를 즐기고 최대한의 유연성을 원한다면 Milvus를 선택하세요. 운영 복잡성을 최소화하고 애플리케이션 구축을 바로 시작하려면 Zilliz Cloud를 선택하세요.

두 가지 경로 모두 목적지까지 갈 수 있습니다. 제어하려는 여정의 양과 도착해야 하는 속도의 문제일 뿐입니다.

훌륭한 인터뷰에 감사드립니다. 더 자세히 알고 싶은 독자들은 방문하시기 바랍니다. 질리즈 또는 .

게시물 Charles Xie, Zilliz 창립자 겸 CEO – 인터뷰 시리즈 처음 등장한 Unite.AI.

Share post:

Subscribe

Popular

More like this
Related

Cornerstone Robotics, Sentire 내시경 시스템을 전 세계적으로 확장하기 위해 7천만 달러 투자

Sentire 시스템은 경량 외과 의사의 측면 암, 진전 여과...

raise Robotics는 고층 패스너 설치를 위해 Harmon과 함께 UR 코봇을 배치했습니다.

Universal Robots와Raise Robotics는 자율 시스템이 하나의 13층 프로젝트 내에서...

변화하는 요구에 맞춰 더 작고 견고한 장치

Molex와 협력하여 Heilind 작성소비자의 기대와 발전하는 기술은 다양한 산업...

귀하의 경력에 ​​주요 영향을 미치는 사람이 되십시오

이 기사는 다음과 파트너십을 맺은 독점 직업 조언 시리즈의...