AI가 데이터 과학 워크플로를 가속화할 수 있는 방법 디코딩

Date:

편집자 주: 이 게시물은 다음의 일부입니다. AI 디코드 시리즈이 행사에서는 AI 기술을 보다 쉽게 ​​접근 가능하게 만들어 AI에 대한 이해를 높이고 RTX 워크스테이션 및 PC 사용자를 위한 새로운 하드웨어, 소프트웨어, 도구 및 가속 기능을 선보입니다.

산업 전반에서 AI는 혁신을 주도하고 효율성을 높이고 있습니다. 하지만 AI의 잠재력을 최대한 발휘하려면 이 기술을 방대한 양의 고품질 데이터로 훈련해야 합니다.

데이터 과학자는 이러한 데이터를 준비하는 데 중요한 역할을 하며, 특히 AI 역량을 강화하기 위해 전문적이고 독점적인 데이터가 필수적인 도메인별 분야에서는 더욱 그렇습니다.

NVIDIA는 증가하는 작업 부하 수요에 대처하기 위해 데이터 과학자를 지원하기 위해 다음과 같이 발표했습니다. 래피즈 cuDF사용자가 데이터를 보다 쉽게 ​​작업할 수 있도록 해주는 라이브러리인 은 코드를 전혀 변경하지 않고도 pandas 소프트웨어 라이브러리의 속도를 높여줍니다. 팬더 는 Python 프로그래밍 언어를 위한 유연하고 강력하며 인기 있는 데이터 분석 및 조작 라이브러리입니다. cuDF를 통해 데이터 과학자는 이제 데이터 처리 속도를 저하시키지 않고도 선호하는 코드 기반을 사용할 수 있습니다.

엔비디아 RTX AI 하드웨어와 기술도 데이터 처리 속도를 높일 수 있습니다. 여기에는 데이터 과학 워크플로에서 모델 교육 및 PC와 워크스테이션에서의 사용자 정의에 이르기까지 모든 수준에서 AI를 빠르고 효율적으로 가속화하는 데 필요한 계산 성능을 제공하는 강력한 GPU가 포함됩니다.

데이터 과학 병목 현상

가장 일반적인 데이터 형식은 행과 열로 구성된 표 형식 데이터입니다. 더 작은 데이터 세트는 Excel과 같은 스프레드시트 도구로 관리할 수 있지만, 수천만 개의 행이 있는 데이터 세트와 모델링 파이프라인은 일반적으로 Python과 같은 프로그래밍 언어의 데이터프레임 라이브러리에 의존합니다.

파이썬 데이터 분석에 널리 사용되는 선택입니다. 그 이유는 다음과 같습니다. 판다스 라이브러리사용하기 쉬운 애플리케이션 프로그래밍 인터페이스(API)를 특징으로 합니다. 그러나 데이터 세트 크기가 커짐에 따라 pandas는 CPU 전용 시스템에서 처리 속도와 효율성에 어려움을 겪습니다. 이 라이브러리는 또한 텍스트 중심 데이터 세트에 어려움을 겪는 것으로 악명이 높으며, 이는 중요한 데이터 유형입니다. 대규모 언어 모델.

데이터 요구 사항이 판다스의 기능을 벗어나면 데이터 과학자들은 딜레마에 직면하게 됩니다. 느린 처리 ​​타임라인을 견뎌낼 것인가, 아니면 더 효율적이지만 사용하기 덜 편리한 도구로 전환하는 복잡하고 비용이 많이 드는 단계를 거칠 것인가.

RAPIDS cuDF를 사용한 전처리 파이프라인 가속화

RAPIDS cuDF는 RTX 기반 AI PC와 워크스테이션에서 인기 있는 pandas 라이브러리의 속도를 최대 100배까지 높입니다.

와 함께 래피즈 cuDF데이터 과학자는 처리 속도를 희생하지 않고도 원하는 코드 베이스를 사용할 수 있습니다.

여울 데이터 과학 및 분석 파이프라인을 개선하도록 설계된 GPU 가속 Python 라이브러리의 오픈 소스 제품군입니다. 큐디에프 데이터를 로드, 필터링, 조작하기 위한 판다와 유사한 API를 제공하는 GPU DataFrame 라이브러리입니다.

cuDF의 “판다 가속 모드”를 사용하면 데이터 과학자는 기존 판다 코드를 GPU에서 실행하여 강력한 병렬 처리를 활용할 수 있으며, 필요할 때 코드가 CPU로 전환된다는 확신을 가질 수 있습니다. 이러한 상호 운용성은 고급의 안정적인 성능을 제공합니다.

그만큼 cuDF의 최신 릴리스 더 큰 데이터 세트와 수십억 개의 행의 표 형식 텍스트 데이터를 지원합니다. 이를 통해 데이터 과학자는 판다 코드를 사용하여 생성 AI 사용 사례에 대한 데이터를 사전 처리할 수 있습니다.

NVIDIA RTX 기반 AI 워크스테이션 및 PC에서 데이터 과학 가속화

최근 연구에 따르면, 데이터 과학자의 57%는 PC, 데스크탑 또는 워크스테이션과 같은 로컬 리소스를 사용합니다. 데이터 과학을 위해서.

데이터 과학자는 다음을 시작으로 상당한 속도 향상을 달성할 수 있습니다. 엔비디아 지포스 RTX 4090 GPU데이터 세트가 커지고 처리가 더욱 메모리 집약적으로 되면 cuDF를 사용하여 최대 100배 더 나은 성능을 제공할 수 있습니다. NVIDIA RTX 6000 Ada 세대 GPU 워크스테이션에서 기존 CPU 기반 솔루션과 비교했을 때.

차트를 보면 cuDF.pandas를 사용하면 동일한 작업을 실행하는 데 한 자릿수 초가 걸리는 반면, 기존 pandas에서는 몇 분이 걸린다는 것을 알 수 있습니다.
두 가지 일반적인 데이터 과학 작업인 “join”과 “groupby”는 y축에 표시되고, x축은 각 작업을 실행하는 데 걸린 시간을 보여줍니다.

데이터 과학자는 RAPIDS cuDF를 쉽게 시작할 수 있습니다. 엔비디아 AI 워크벤치. 컨테이너로 구동되는 이 무료 개발자 환경 관리자를 사용하면 데이터 과학자와 개발자가 GPU 시스템에서 AI 및 데이터 과학 워크로드를 만들고, 협업하고, 마이그레이션할 수 있습니다. 사용자는 여러 NVIDIA GitHub에서 사용 가능한 예제 프로젝트 저장소, 예: cuDF AI 워크벤치 프로젝트.

cuDF는 기본적으로도 사용 가능합니다. HP AI 스튜디오AI 개발자가 워크스테이션에서 클라우드로 개발 환경을 원활하게 복제할 수 있도록 설계된 중앙 집중형 데이터 과학 플랫폼입니다. 이를 통해 여러 환경을 관리하지 않고도 프로젝트를 설정, 개발 및 협업할 수 있습니다.

RTX 기반 AI PC 및 워크스테이션에서 cuDF의 이점은 원시 성능 속도 향상을 넘어 확장됩니다. 또한:

  • 강력한 GPU에서 고정 비용으로 로컬 개발을 진행하고, 이를 온프레미스 서버나 클라우드 인스턴스에 원활하게 복제하여 시간과 비용을 절약합니다.
  • 더 빠른 반복을 위한 더 빠른 데이터 처리가 가능해져, 데이터 과학자가 대화형 속도로 데이터 세트에서 실험하고, 개선하고, 통찰력을 얻을 수 있습니다.
  • 파이프라인 후반부에서 더 나은 모델 결과를 얻기 위해 더욱 효과적인 데이터 처리를 제공합니다.

RAPIDS cuDF에 대해 자세히 알아보세요.

데이터 과학의 새로운 시대

AI와 데이터 과학이 계속 진화함에 따라 방대한 데이터 세트를 빠르게 처리하고 분석하는 능력은 산업 전반에 걸쳐 획기적인 진전을 이룰 수 있는 핵심 차별화 요소가 될 것입니다. 정교한 머신 러닝 모델을 개발하든, 복잡한 통계 분석을 수행하든, 생성적 AI를 탐구하든, RAPIDS cuDF는 차세대 데이터 처리를 위한 기반을 제공합니다.

NVIDIA는 다음을 포함하여 가장 인기 있는 데이터 프레임 도구에 대한 지원을 추가하여 해당 기반을 확장하고 있습니다. 극선가장 빠르게 성장하는 Python 라이브러리 중 하나로, 기본적으로 다른 CPU 전용 도구와 비교했을 때 데이터 처리 속도가 상당히 빨라집니다.

Polars는 이번 달에 오픈 베타를 발표했습니다. Polars GPU 엔진RAPIDS cuDF로 구동됩니다. Polars 사용자는 이제 이미 번개처럼 빠른 데이터프레임 라이브러리의 성능을 최대 13배까지 높일 수 있습니다.

RTX AI를 통해 미래 엔지니어를 위한 무한한 가능성

NVIDIA GPU는 대학 데이터 센터, GeForce RTX 노트북 또는 NVIDIA RTX 워크스테이션에서 실행하든 학습을 가속화하고 있습니다. 데이터 과학 분야 및 그 이상의 분야의 학생들은 학습 경험을 향상시키고 실제 응용 프로그램에서 널리 사용되는 하드웨어에 대한 실무 경험을 얻고 있습니다.

자세히 알아보세요 NVIDIA RTX PC 및 워크스테이션 AI 기반 도구를 사용해 학생들의 학업 수준을 향상시키세요.

생성적 AI는 모든 종류의 게임, 화상 회의 및 대화형 경험을 혁신하고 있습니다. 구독하여 새로운 소식과 다음 소식을 알아보세요. AI 디코드 뉴스레터.

Share post:

Subscribe

Popular

More like this
Related

Invio Automation, 자동화 평가 서비스 출시

Invio Automation은 위의 포장 절차에 사용된 것과 같은 맞춤형...

궤도 백업 인터넷을 위한 NATO의 비상 계획

2024년 2월 18일, 예멘 후티 반군의 미사일 공격으로 화물선이...

2024년 상위 10가지 에너지 스토리

IEEE 스펙트럼'2024년 가장 많이 읽힌 에너지 스토리는 더 많은...

IEEE, 엔지니어링 및 기술 부문 우수상 수상자를 발표하다

2025 IEEE 메달 및 표창 수상자를 만나보세요. 상은 다음을...