현대의 AI 개발에 골드러시가 진행되고 있다는 것은 비밀이 아닙니다. 에 따르면 2024년 업무 동향 지수 Microsoft와 Linkedin에 따르면 비즈니스 리더의 40% 이상이 인공 지능(AI)을 사용하여 비즈니스 프로세스를 처음부터 완전히 재설계할 것으로 예상합니다. 앞으로 몇 년 안에. 이러한 엄청난 변화는 단순한 기술 업그레이드가 아닙니다. 이는 기업이 운영하고, 의사 결정을 내리고, 고객과 상호 작용하는 방식을 근본적으로 변화시킵니다. 이러한 급속한 발전으로 인해 데이터 및 자사 데이터 관리 도구에 대한 수요가 늘어나고 있습니다. 에 따르면 포레스터엄청난 기술 리더의 92%는 2024년에 데이터 관리 및 AI 예산을 늘릴 계획입니다.
최근에는 AI에 관한 McKinsey 글로벌 설문조사응답자의 65%는 자신의 조직이 생성 AI 기술을 정기적으로 사용하고 있다고 답했습니다. 이번 채택은 중요한 도약을 의미하지만 AI 시스템에 공급되는 데이터의 품질이라는 중요한 과제도 강조합니다. 효과적인 AI가 훈련된 데이터만큼만 좋아지는 업계에서는 신뢰할 수 있고 정확한 데이터를 얻기가 점점 더 어려워지고 있습니다.
불량 데이터로 인해 발생하는 높은 비용
불량 데이터는 새로운 문제는 아니지만, AI 시대에 그 영향은 더욱 커집니다. 2017년 MIT(매사추세츠 공과대학)의 연구에 따르면 잘못된 데이터로 인해 기업 수익의 15~25%가 막대한 손실을 입는 것으로 추정되었습니다. 2021년에는 Gartner 추정 그 열악한 데이터 비용 조직의 연간 평균 금액은 1,290만 달러입니다.
더티 데이터(불완전하거나 부정확하거나 일관성이 없는 데이터)는 AI 시스템에 연쇄적인 영향을 미칠 수 있습니다. AI 모델이 품질이 낮은 데이터로 학습되면 결과로 얻은 통찰력과 예측에는 근본적으로 결함이 있습니다. 이는 AI 애플리케이션의 효율성을 약화시킬 뿐만 아니라 중요한 의사 결정을 위해 이러한 기술에 의존하는 기업에 심각한 위험을 초래합니다.
이는 제한된 리소스를 데이터 정리 및 구성에 점점 더 집중해야 했던 기업 데이터 과학 팀에게 큰 골칫거리를 만들고 있습니다. 최근에는 DBT가 실시한 엔지니어링 보고서 현황, 데이터 과학 전문가의 57%는 업무에서 가장 큰 문제로 데이터 품질 저하를 꼽았습니다.
AI 모델에 미치는 영향
잘못된 데이터가 AI 개발에 미치는 영향은 세 가지 주요 방식으로 나타납니다.
- 정확성과 신뢰성 감소: AI 모델은 데이터에서 파생된 패턴과 상관관계를 기반으로 발전합니다. 입력 데이터가 오염되면 모델은 신뢰할 수 없는 출력을 생성합니다. “AI 환각”으로 널리 알려져 있습니다. 이는 잘못된 전략, 제품 실패, 고객 신뢰 상실로 이어질 수 있습니다.
- 바이어스 증폭: 더티 데이터에는 다음이 포함되는 경우가 많습니다. 편견 확인하지 않은 상태로 두면 AI 알고리즘에 뿌리내리게 됩니다. 이로 인해 특히 채용, 대출, 법 집행 등 민감한 분야에서 차별적인 관행이 발생할 수 있습니다. 예를 들어, AI 채용 도구가 편향된 과거 채용 데이터를 학습한 경우 특정 인구통계를 다른 인구통계보다 부당하게 선호할 수 있습니다.
- 운영 비용 증가: 결함이 있는 AI 시스템은 지속적인 조정과 재교육이 필요하며, 이로 인해 추가 시간과 리소스가 소모됩니다. 기업은 혁신과 개선보다는 오류 수정의 끊임없는 순환에 빠져 있을 수 있습니다.
다가오는 데이터 대재앙
“우리는 인간이 생성하지 않은 콘텐츠가 인간이 생성한 콘텐츠의 양을 훨씬 능가하는 “티핑 포인트”에 빠르게 접근하고 있습니다. AI 자체의 발전은 데이터 정리 및 검증을 위한 새로운 도구를 제공하고 있습니다. 그러나 웹에서 AI로 생성된 콘텐츠의 양은 기하급수적으로 증가하고 있습니다.
더 많은 AI 생성 콘텐츠가 웹으로 푸시되고 해당 콘텐츠가 AI 생성 콘텐츠에 대해 훈련된 LLM에 의해 생성됨에 따라 우리는 자사 데이터와 신뢰할 수 있는 데이터가 위험에 처해 있고 귀중한 상품이 되는 미래를 보고 있습니다.
데이터 희석의 과제
AI 생성 콘텐츠의 확산은 업계에 몇 가지 주요 과제를 안겨줍니다.
- 품질 관리: 인간이 생성한 데이터와 AI가 생성한 데이터를 구별하는 것이 점점 어려워지면서 AI 모델 훈련에 사용되는 데이터의 품질과 신뢰성을 보장하기가 더 어려워지고 있습니다.
- 지적 재산권 문제: AI 모델이 AI 생성 콘텐츠를 실수로 스크랩하고 학습함에 따라 데이터와 관련된 소유권 및 권리에 대한 의문이 제기되어 잠재적으로 법적 문제로 이어질 수 있습니다.
- 윤리적 의미: 데이터 출처에 대한 투명성이 부족하면 잘못된 정보의 확산이나 편견 강화와 같은 윤리적 문제가 발생할 수 있습니다.
서비스형 데이터(Data-as-a-Service)가 기본이 되다
교육 목적으로 자사 데이터를 보완하고 향상하기 위해 DaaS(Data-as-a-Service) 솔루션이 점점 더 모색되고 있습니다. DaaS의 진정한 가치는 데이터 자체가 다양한 충실도 및 상용 애플리케이션 사용 사례에 대해 정규화, 정리 및 평가된 것뿐만 아니라 데이터를 소화하는 시스템에 맞게 프로세스를 표준화하는 것입니다. 이 산업이 성숙해짐에 따라 데이터 산업 전반에 걸쳐 이러한 표준화가 나타나기 시작할 것으로 예상됩니다. 우리는 이미 소매 미디어 부문에서 통일성에 대한 이러한 추진을 목격하고 있습니다.
AI가 다양한 산업에 지속적으로 침투함에 따라 데이터 품질의 중요성은 더욱 커질 것입니다. 깨끗한 데이터를 우선시하는 기업은 경쟁 우위를 확보할 수 있지만, 이를 무시하는 기업은 매우 빠르게 뒤처지게 됩니다.
AI 개발에서 더티 데이터의 높은 비용은 무시할 수 없는 시급한 문제입니다. 열악한 데이터 품질은 AI 시스템의 기반을 약화시켜 통찰력 결함, 비용 증가, 잠재적인 윤리적 함정을 초래합니다. 포괄적인 데이터 관리 전략을 채택하고 데이터 무결성을 중시하는 문화를 조성함으로써 조직은 이러한 위험을 완화할 수 있습니다.
데이터가 새로운 석유가 되는 시대에 데이터의 순수성을 보장하는 것은 단지 기술적인 필요성이 아니라 전략적 필수 사항입니다. 오늘 깨끗한 데이터에 투자하는 기업은 내일의 혁신을 선도하는 기업이 될 것입니다.
게시물 AI 개발에서 더티 데이터의 높은 비용 처음 등장한 Unite.AI.