생성적 AI에 대한 수요가 증가함에 따라 이러한 시스템을 교육하기 위한 고품질 데이터에 대한 갈망도 커지고 있습니다. 학술 출판사는 LLM(대형 언어 모델)에 대한 교육 데이터를 제공하기 위해 연구 콘텐츠를 수익화하기 시작했습니다. 이러한 개발은 출판사를 위한 새로운 수익원을 창출하고 과학적 발견을 위한 생성 AI를 강화하는 동시에 사용된 연구의 무결성과 신뢰성에 대한 중요한 질문을 제기합니다. 이는 중요한 질문을 제기합니다. 판매되는 데이터 세트가 신뢰할 수 있습니까? 그리고 이 관행이 과학 커뮤니티와 생성 AI 모델에 어떤 영향을 미칩니까?
수익화 연구 거래의 증가
Wiley, Taylor & Francis 등을 포함한 주요 학술 출판사는 보고됨 생성 AI 모델을 개발하는 기술 회사에 콘텐츠 라이선스를 제공하여 상당한 수익을 얻습니다. 예를 들어, Wiley는 올해에만 이러한 거래를 통해 4천만 달러 이상의 수익을 올렸다고 밝혔습니다. 이러한 계약을 통해 AI 회사는 다양하고 광범위한 과학 데이터 세트에 액세스할 수 있으며 아마도 AI 도구의 품질이 향상될 것입니다.
출판사의 주장은 간단합니다. 라이센스는 더 나은 AI 모델을 보장하고 사회에 이익을 주는 동시에 저자에게 로열티를 보상합니다. 이 비즈니스 모델은 기술 회사와 출판사 모두에게 이익이 됩니다. 그러나 과학 지식을 수익화하려는 경향이 증가함에 따라 주로 의심스러운 연구가 이러한 AI 교육 데이터 세트에 침투할 때 위험이 따릅니다.
가짜 연구의 그림자
학계에서는 사기성 연구 문제가 낯설지 않습니다. 연구에 따르면 발표된 많은 연구 결과에는 결함이 있거나 편향되어 있거나 신뢰할 수 없는 것으로 나타났습니다. 2020년 설문 조사에 따르면 연구자 중 거의 절반이 선택적 데이터 보고 또는 잘못 설계된 현장 연구와 같은 문제를 보고한 것으로 나타났습니다. 2023년에는 그 이상 10,000개의 논문 위조되거나 신뢰할 수 없는 결과로 인해 철회되었으며, 그 숫자는 매년 계속해서 증가하고 있습니다. 전문가들은 이 수치가 과학 데이터베이스에 떠돌아다니는 수많은 의심스러운 연구와 함께 빙산의 일각을 나타낸다고 믿습니다.
위기는 주로 “제지 공장,” 종종 중국, 인도, 동유럽과 같은 지역의 학문적 압력에 대응하여 조작된 연구를 생산하는 그림자 조직입니다. 추정된다 약 2% 전 세계적으로 투고되는 저널의 비율은 제지 공장에서 나옵니다. 이러한 가짜 논문은 합법적인 연구와 유사할 수 있지만 허위 데이터와 근거 없는 결론으로 가득 차 있습니다. 안타깝게도 그러한 논문은 동료 검토를 통과하지 못하고 존경받는 저널에 등재되어 과학적 통찰력의 신뢰성이 손상됩니다. 예를 들어, 코로나19 팬데믹 기간 동안, 결함이 있는 연구 이버멕틴에 대한 치료법으로서의 효능을 잘못 제시하여 혼란을 야기하고 효과적인 공중 보건 대응을 지연시켰습니다. 이 예는 결함이 있는 결과가 심각한 영향을 미칠 수 있는 신뢰할 수 없는 연구를 전파할 때 발생할 수 있는 잠재적인 피해를 강조합니다.
AI 훈련 및 신뢰에 대한 결과
LLM이 사기성 또는 품질이 낮은 연구가 포함된 데이터베이스를 교육할 때 그 의미는 심오합니다. AI 모델은 훈련 데이터 내의 패턴과 관계를 사용하여 출력을 생성합니다. 입력 데이터가 손상된 경우 출력의 부정확성이 지속되거나 증폭될 수도 있습니다. 이러한 위험은 AI가 생성한 잘못된 통찰력이 생명을 위협하는 결과를 초래할 수 있는 의학과 같은 분야에서 특히 높습니다.
더욱이 이 문제는 학계와 AI에 대한 국민의 신뢰를 위협하고 있다. 게시자는 계속해서 계약을 체결함에 따라 판매되는 데이터의 품질에 대한 우려를 해결해야 합니다. 그렇게 하지 않으면 과학계의 평판이 훼손되고 AI의 잠재적인 사회적 이익이 훼손될 수 있습니다.
AI를 위한 신뢰할 수 있는 데이터 보장
AI 교육을 방해하는 결함 있는 연구의 위험을 줄이려면 출판사, AI 회사, 개발자, 연구원 및 더 넓은 커뮤니티의 공동 노력이 필요합니다. 출판사는 동료 검토 프로세스를 개선하여 신뢰할 수 없는 연구를 훈련 데이터 세트로 만들기 전에 이를 포착해야 합니다. 리뷰어에게 더 나은 보상을 제공하고 더 높은 기준을 설정하는 것이 도움이 될 수 있습니다. 여기서는 공개 검토 프로세스가 매우 중요합니다. 이는 더 많은 투명성과 책임성을 제공하여 연구에 대한 신뢰를 구축하는 데 도움이 됩니다.
AI 회사는 AI 훈련을 위한 연구 자료를 조달할 때 누구와 협력할지에 대해 더욱 주의해야 합니다. 고품질의 잘 검토된 연구로 높은 평판을 얻고 있는 출판사와 저널을 선택하는 것이 중요합니다. 이러한 맥락에서 출판사의 실적(예: 논문 철회 빈도, 검토 과정에 대한 개방성)을 면밀히 살펴볼 가치가 있습니다. 선별적으로 선택하면 데이터의 신뢰성이 향상되고 AI 및 연구 커뮤니티 전반에 걸쳐 신뢰가 구축됩니다.
AI 개발자는 자신이 사용하는 데이터에 대해 책임을 져야 합니다. 이는 전문가와 협력하고, 연구를 주의 깊게 확인하고, 여러 연구의 결과를 비교하는 것을 의미합니다. AI 도구 자체는 의심스러운 데이터를 식별하고 의심스러운 연구가 더 확산될 위험을 줄이도록 설계될 수도 있습니다.
투명성도 중요한 요소입니다. 출판사와 AI 회사는 연구가 어떻게 사용되는지, 로열티가 어디에 사용되는지에 대한 세부 정보를 공개적으로 공유해야 합니다. 다음과 같은 도구 Generative AI 라이선스 계약 추적기 가능성을 보여주지만 더 폭넓은 채택이 필요합니다. 연구자들은 또한 자신의 연구가 어떻게 사용되는지에 대해서도 발언권을 가져야 합니다. 옵트인 정책그 사람들처럼 케임브리지 대학 출판부작성자에게 자신의 기여에 대한 통제권을 제공합니다. 이를 통해 신뢰가 구축되고, 공정성이 보장되며, 저자가 이 과정에 적극적으로 참여하게 됩니다.
또한, 고품질의 연구에 대한 공개적인 접근이 보장되어야 합니다. 포용성과 공정성 AI 개발 중. 정부, 비영리 단체 및 업계 관계자는 오픈 액세스 이니셔티브에 자금을 지원하여 중요한 교육 데이터 세트에 대한 상용 출판사에 대한 의존도를 줄일 수 있습니다. 게다가 AI 산업에는 데이터를 윤리적으로 소싱하기 위한 명확한 규칙이 필요합니다. 신뢰할 수 있고 잘 검토된 연구에 집중함으로써 우리는 더 나은 AI 도구를 구축하고 과학적 무결성을 보호하며 과학과 기술에 대한 대중의 신뢰를 유지할 수 있습니다.
결론
AI 훈련을 위한 연구로 수익을 창출하는 것은 기회와 과제를 모두 제시합니다. 학술 콘텐츠 라이선스를 통해 더욱 강력한 AI 모델을 개발할 수 있지만, 사용되는 데이터의 무결성과 신뢰성에 대한 우려도 제기됩니다. “제지 공장”의 연구를 포함한 결함이 있는 연구는 AI 교육 데이터 세트를 손상시켜 부정확성을 초래하여 대중의 신뢰와 AI의 잠재적 이점을 훼손할 수 있습니다. AI 모델이 신뢰할 수 있는 데이터를 기반으로 구축되도록 하려면 출판사, AI 회사 및 개발자가 협력하여 동료 검토 프로세스를 개선하고 투명성을 높이며 검증된 고품질 연구의 우선순위를 지정해야 합니다. 그렇게 함으로써 우리는 AI의 미래를 보호하고 과학계의 무결성을 유지할 수 있습니다.
게시물 AI 교육을 위한 수익 창출 연구: 위험 및 모범 사례 처음 등장한 Unite.AI.