Anais Dotis-Georgiou는 InfluxData의 개발자 옹호자로, 데이터 분석, AI, 머신 러닝을 사용하여 데이터를 아름답게 만드는 데 열정을 가지고 있습니다. 그녀는 수집한 데이터를 가져와 연구, 탐색, 엔지니어링을 혼합하여 데이터를 기능, 가치, 아름다움이 있는 것으로 변환합니다. 그녀가 화면 뒤에 있지 않을 때는 밖에서 그림을 그리거나, 스트레칭을 하거나, 보드를 타거나, 축구공을 쫓는 것을 볼 수 있습니다.
인플럭스데이터 회사 건물이에요 인플럭스DB전 세계 백만 명 이상의 개발자가 사용하는 오픈소스 시계열 데이터베이스입니다. 그들의 사명은 개발자가 시계열 데이터로 지능적이고 실시간 시스템을 구축하도록 돕는 것입니다.
InfluxData에서 Research Assistant에서 Lead Developer Advocate로의 여정에 대해 조금 공유해 주시겠습니까? 데이터 분석 및 머신 러닝 분야에서의 배경이 현재 역할에 어떤 영향을 미쳤습니까?
저는 생물의학 공학에 중점을 둔 화학 공학 학사 학위를 취득했고 결국 백신 개발과 태아 자폐증 탐지를 수행하는 연구실에서 일했습니다. 거기서 저는 액체 취급 로봇을 프로그래밍하고 데이터 과학자들이 이상 탐지를 위한 매개변수를 이해하도록 돕기 시작했는데, 이로 인해 프로그래밍에 더 관심을 갖게 되었습니다.
그 후 저는 Oracle에서 영업 개발 담당자가 되었고 코딩에 집중해야 한다는 것을 깨달았습니다. 저는 University of Texas에서 데이터 분석에 대한 코딩 부트 캠프를 수강했고 기술, 특히 개발자 관계에 뛰어들 수 있었습니다.
저는 기술적 배경을 가지고 있었기 때문에 지금의 역할을 형성하는 데 도움이 되었습니다. 개발 경험은 없었지만 엔지니어링 배경과 사고방식을 가지고 있지만 소프트웨어를 배우려고 하는 사람들과 공감하고 공감할 수 있었습니다. 그래서 콘텐츠나 기술 튜토리얼을 만들 때 새로운 사용자가 기술적 어려움을 극복하도록 돕고 대화를 그들에게 관련성 있고 흥미로운 맥락에 놓을 수 있었습니다.
귀하의 업무는 창의성과 기술적 전문성을 혼합한 것 같습니다. InfluxData에서 데이터를 ‘아름답게’ 만드는 것에 대한 열정을 일상 업무에 어떻게 통합합니까?
최근에는 데이터 분석보다는 데이터 엔지니어링에 더 집중하고 있습니다. 예전만큼 데이터 분석에 집중하지는 않지만, 여전히 수학을 정말 좋아합니다. 수학은 아름답다고 생각하고, 알고리즘의 이면에 있는 수학을 설명할 기회가 생기면 기꺼이 하겠습니다.
InfluxDB는 시계열 데이터 공간에서 초석이었습니다. 오픈소스 커뮤니티가 InfluxDB의 개발과 진화에 어떤 영향을 미치는지 어떻게 생각하십니까?
InfluxData는 오픈 데이터 아키텍처와 Apache 생태계에 매우 헌신적입니다. 작년에 우리는 Rust로 작성되고 Apache Flight, DataFusion, Arrow, Parquet으로 구축된 InfluxDB의 새로운 핵심인 InfluxDB 3.0을 발표했습니다. 이를 FDAP 스택이라고 부릅니다. InfluxData의 엔지니어가 이러한 상류 프로젝트에 계속 기여함에 따라 커뮤니티는 계속 성장하고 Apache Arrow 프로젝트 세트는 더 많은 기능과 기능, 더 광범위한 상호 운용성을 통해 사용하기 더 쉬워집니다.
최근 시계열 데이터와 AI와 관련된 가장 흥미로운 오픈소스 프로젝트나 기여는 무엇이 있나요?
LLM이 제로샷 예측을 위해 시계열에 재활용되거나 적용되는 것을 보는 것은 멋진 일입니다. Autolab에는 개방형 시계열 언어 모델 컬렉션이 있으며 TimeGPT도 또 다른 좋은 예입니다.
또한 다음을 포함한 다양한 오픈 소스 스트림 처리 라이브러리 바이트왁스 그리고 메이지.에이아이사용자가 Hugging Face의 모델을 활용하고 통합할 수 있게 해주는 기능은 매우 흥미롭습니다.
InfluxData는 특히 AI와 머신 러닝의 급속한 발전 속에서 오픈 소스 이니셔티브가 개발자 커뮤니티에 관련성을 유지하고 유익한지 어떻게 보장합니까?
InfluxData 이니셔티브는 AI 전문 기업도 활용하는 오픈 소스 프로젝트에 기여하는 데 집중함으로써 관련성과 이점을 유지합니다. 예를 들어, InfluxDB가 Apache Arrow, Parquet 또는 DataFusion에 기여할 때마다 Apache Spark, DataBricks, Rapids.ai, Snowflake, BigQuery, HuggingFace 등을 포함하여 이를 활용하는 다른 모든 AI 기술과 회사에 이점이 됩니다.
시계열 언어 모델은 예측 분석에서 점점 더 중요해지고 있습니다. 이러한 모델이 시계열 예측 및 이상 탐지를 어떻게 변화시키고 있는지 자세히 설명해 주시겠습니까?
시계열 LM은 선형 및 통계적 모델보다 성능이 뛰어나며, 제로샷 예측도 제공합니다. 즉, 모델을 사용하기 전에 데이터에 대해 모델을 훈련할 필요가 없습니다. 시계열 통계에 대한 심층적인 전문 지식이 필요한 통계적 모델을 조정할 필요도 없습니다.
그러나 자연어 처리와 달리 시계열 분야는 공개적으로 접근 가능한 대규모 데이터 세트가 부족합니다. 시계열에 대한 대부분의 기존 사전 학습된 모델은 수천 개 또는 수백 개의 샘플만 포함하는 작은 샘플 크기에서 학습됩니다. 이러한 벤치마크 데이터 세트는 시계열 커뮤니티의 발전에 중요한 역할을 했지만, 제한된 샘플 크기와 일반성 부족은 딥 러닝 모델을 사전 학습하는 데 어려움을 줍니다.
즉, 이것이 오픈 소스 시계열 LM을 구하기 어렵게 만드는 이유라고 저는 생각합니다. Google의 TimesFM과 IBM의 Tiny Time Mixer는 수천억 개의 데이터 포인트가 있는 방대한 데이터 세트에서 학습되었습니다. 예를 들어 TimesFM의 경우 사전 학습 프로세스는 총 2테라바이트의 메모리가 있는 256개의 TPU 코어로 구성된 Google Cloud TPU v3-256을 사용하여 수행됩니다. 사전 학습 프로세스는 약 10일이 걸리고 12억 개의 매개변수가 있는 모델이 생성됩니다. 사전 학습된 모델은 더 낮은 학습 속도와 더 적은 에포크를 사용하여 특정 다운스트림 작업 및 데이터 세트에서 미세 조정됩니다.
바라건대, 이 변환은 더 많은 사람들이 깊은 도메인 지식 없이도 정확한 예측을 할 수 있음을 의미합니다. 그러나 재무적 및 환경적 비용 관점에서 시계열 LM과 같은 계산적으로 비싼 모델을 활용하는 것의 장단점을 따져보려면 많은 노력이 필요합니다.
이것 허깅 페이스 블로그 포스트 시계열 예측의 또 다른 훌륭한 예를 자세히 설명합니다.
전통적인 방법에 비해 시계열 LM을 사용하는 주요 이점은 무엇입니까? 특히 복잡한 패턴과 제로 샷 성능을 처리하는 측면에서 말입니다.
가장 중요한 장점은 시계열 데이터에서 모델을 훈련하고 재훈련할 필요가 없다는 것입니다. 이를 통해 모델의 드리프트를 모니터링하고 재훈련을 트리거하는 온라인 머신 러닝 문제가 해결되어 이상적으로는 예측 파이프라인의 복잡성이 제거되기를 바랍니다.
또한 다변량 통계 모델에 대한 교차 시리즈 상관관계나 관계를 추정하는 데 어려움을 겪을 필요가 없습니다. 추정치에 의해 추가된 분산은 종종 결과 예측에 해를 끼치고 모델이 잘못된 상관관계를 학습하게 할 수 있습니다.
Google의 TimesFM, IBM의 TinyTimeMixer, AutoLab의 MOMENT와 같은 모델이 실제 시나리오에서 어떻게 구현되었는지에 대한 실제 사례를 몇 가지 제공해 주시겠습니까?
이는 대답하기 어렵습니다. 이러한 모델이 아직 초기 단계이기 때문에 기업이 이를 실제 상황에서 어떻게 사용하는지에 대해 알려진 바가 거의 없습니다.
여러분의 경험에 따르면, 조직이 시계열 LM을 기존 데이터 인프라에 통합할 때 일반적으로 직면하는 과제는 무엇이며, 이를 어떻게 극복할 수 있습니까?
시계열 LM은 너무 새롭기 때문에 조직이 직면한 구체적인 과제를 모릅니다. 그러나 GenAI 모델을 데이터 파이프라인에 통합할 때 직면하는 것과 동일한 과제에 직면할 것으로 생각합니다. 이러한 과제에는 다음이 포함됩니다.
- 데이터 호환성 및 통합 문제: 시계열 LM은 종종 특정 데이터 형식, 일관된 타임스탬핑 및 정기적인 간격을 필요로 하지만 기존 데이터 인프라에는 레거시 데이터베이스, 클라우드 스토리지 또는 실시간 스트림과 같은 다양한 시스템에 분산된 비정형 또는 일관되지 않은 시계열 데이터가 포함될 수 있습니다. 이를 해결하기 위해 팀은 강력한 ETL(추출, 변환, 로드) 파이프라인을 구현하여 시계열 데이터를 사전 처리, 정리 및 정렬해야 합니다.
- 모델 확장성 및 성능: 시계열 LM, 특히 트랜스포머와 같은 딥 러닝 모델은 리소스를 많이 소모할 수 있으며, 대량의 시계열 데이터를 실시간 또는 거의 실시간으로 처리하기 위해 상당한 컴퓨팅 및 메모리 리소스가 필요합니다. 이를 위해 팀은 Kubernetes 또는 클라우드 관리 ML 서비스와 같은 확장 가능한 플랫폼에 모델을 배포하고, 필요할 때 GPU 가속을 활용하고, Dask 또는 Ray와 같은 분산 처리 프레임워크를 활용하여 모델 추론을 병렬화해야 합니다.
- 해석성과 신뢰성: 시계열 모델, 특히 복잡한 LM은 “블랙박스”로 볼 수 있어 예측을 해석하기 어렵습니다. 이는 금융이나 의료와 같은 규제 산업에서 특히 문제가 될 수 있습니다.
- 데이터 개인정보 보호 및 보안: 시계열 데이터를 처리하는 데는 IoT 센서 데이터나 금융 거래 데이터와 같은 민감한 정보가 포함되는 경우가 많으므로 LM을 통합할 때 데이터 보안과 규정 준수를 보장하는 것이 중요합니다. 조직은 데이터 파이프라인과 모델이 암호화 및 액세스 제어를 포함한 최상의 보안 관행을 준수하고 안전하고 격리된 환경 내에 모델을 배포하도록 해야 합니다.
앞으로 예측 분석 및 AI 분야에서 시계열 LM의 역할이 어떻게 진화할 것으로 생각하십니까? 특히 당신을 흥분시키는 새로운 트렌드나 기술이 있습니까?
시계열 LM의 진화에서 가능한 다음 단계는 사용자가 시계열 LM을 더 쉽게 배포, 액세스 및 사용할 수 있는 도구를 도입하는 것일 수 있습니다. 제가 사용한 시계열 LM 중 다수는 매우 구체적인 환경을 요구하고 광범위한 튜토리얼과 문서가 부족합니다. 궁극적으로 이러한 프로젝트는 초기 단계에 있지만 앞으로 몇 달과 몇 년 동안 어떻게 진화하는지 보는 것은 흥미로울 것입니다.
훌륭한 인터뷰에 감사드립니다. 더 자세히 알고 싶은 독자는 다음을 방문하세요. 인플럭스데이터.
게시물 Anais Dotis-Georgiou, InfluxData의 개발자 옹호자 – 인터뷰 시리즈 처음 등장 유나이트.AI.