AI가 웹 크롤링에 대한 전쟁을 일으켰습니다.

Date:

대부분의 사람들은 다음과 같이 가정합니다. 생성형 AI 점점 더 좋아질 것입니다. 결국, 지금까지의 추세였으니까요. 그리고 그럴 수도 있습니다. 하지만 어떤 사람들은 생성 AI 모델은 훈련된 거대한 데이터 세트만큼만 좋다는 것을 깨닫지 못하고, 그 데이터 세트는 OpenAI와 Anthropic과 같은 선도적인 AI 회사가 소유한 독점 데이터로 구성되지 않았습니다. 대신, 그것은 우리 모두가 만든 공개 데이터로 구성되어 있습니다. 블로그 게시물을 쓴 적이 있거나, 비디오를 게시한 적이 있거나, Reddit 스레드에 댓글을 단 적이 있거나, 기본적으로 온라인에서 다른 일을 한 적이 있는 사람이라면 누구나 말입니다.

새로운 보고서 데이터 출처 이니셔티브AI 연구자들의 자원 봉사 단체인 ,는 모든 데이터에서 무슨 일이 일어나고 있는지에 대한 빛을 비춥니다. 보고서는 “위기 속의 동의: AI 데이터 커먼즈의 급속한 쇠퇴”는 생성적 AI에 위협을 느끼는 상당수의 조직이 데이터를 보호하기 위한 조치를 취하고 있다고 언급했습니다. IEEE 스펙트럼 와 이야기했다 셰인 롱프리데이터 출처 이니셔티브의 수석 연구원인 그는 보고서와 AI 회사에 미치는 영향에 대해 이야기했습니다.

Shayne Longpre의 글:

  • 웹사이트가 웹 크롤러를 차단하는 방법과 그 이유
  • 사라지는 데이터와 AI 회사에 미치는 영향
  • 합성 데이터, 피크 데이터, 그리고 그 다음에 일어날 일
  • 웹 크롤러를 차단하기 위해 웹사이트가 사용하는 기술은 새로운 것이 아닙니다. 로봇 배제 프로토콜 1995년에 도입되었습니다. 그것이 무엇이고 생성 AI 시대에 왜 갑자기 그렇게 중요해졌는지 설명해 주시겠습니까?

    파란색 칼라 셔츠를 입고 가슴에 팔을 접은 남자의 초상화셰인 롱프리

    셰인 롱프리: Robots.txt는 크롤러(웹을 탐색하고 보고 있는 것을 기록하는 봇)가 웹사이트의 특정 부분을 크롤링할지 여부를 결정하는 데 사용하는 기계 판독 파일입니다. 웹사이트가 주로 웹 검색을 지시하는 데 사용하던 시대에 사실상의 표준이 되었습니다. Bing이나 Google 검색을 생각해 보세요. 이들은 이 정보를 기록하여 사용자가 웹을 탐색하는 경험을 개선하고자 했습니다. 이는 매우 공생적인 관계였는데, 웹 검색은 웹사이트로 트래픽을 보내 작동하고 웹사이트는 이를 원하기 때문입니다. 일반적으로 대부분의 웹사이트는 대부분의 크롤러와 잘 호환되었습니다.

    다음으로 이를 이해하는 데 중요한 주장 사슬에 대해 이야기하겠습니다. 범용 AI 모델과 매우 인상적인 기능은 이를 훈련하는 데 사용된 데이터와 컴퓨팅의 규모에 의존합니다. 규모와 데이터는 정말 중요하며 웹처럼 공개 규모를 제공하는 소스는 거의 없습니다. 많은 기초 모델이 [data sets composed of] 웹 크롤링. 이러한 인기 있고 중요한 데이터 세트 아래에는 본질적으로 웹사이트와 그 데이터를 수집하고 패키징하고 처리하는 데 사용되는 크롤링 인프라가 있습니다. 저희 연구는 데이터 세트뿐만 아니라 기반 웹사이트의 선호도 신호를 살펴봅니다. 그것은 데이터 자체의 공급망입니다.

    하지만 작년에 많은 웹사이트가 robots.txt를 사용하여 봇을 제한하기 시작했습니다. 특히 광고와 페이월로 수익을 창출하는 웹사이트가 그렇습니다. 뉴스와 아티스트를 생각해 보세요. 그들은 특히 생성 AI가 생계를 침해할까봐 두려워하고, 어쩌면 그럴 만도 합니다. 그래서 그들은 데이터를 보호하기 위한 조치를 취하고 있습니다.

    사이트에서 robots.txt 제한을 걸면 불법 침입 금지 표지판을 내건 것과 마찬가지죠? 집행할 수 없습니다. 크롤러가 이를 존중할 것이라고 믿어야 합니다.

    롱프레: 이것의 비극은 robots.txt가 기계가 읽을 수 있지만 법적으로 집행할 수 없는 것처럼 보인다는 것입니다. 반면 서비스 약관은 법적으로 집행할 수 있지만 기계가 읽을 수 없습니다. 서비스 약관에서 그들은 자연어로 데이터 사용에 대한 선호 사항을 표현할 수 있습니다. 그래서 그들은 “이 데이터를 사용할 수 있지만 상업적으로는 사용할 수 없습니다”와 같은 말을 할 수 있습니다. 하지만 robots.txt에서 당신은 크롤러를 개별적으로 지정하고 그런 다음 웹사이트의 어떤 부분을 허용하거나 허용하지 않을지 말해야 합니다. 이것은 수천 개의 다른 크롤러 중에서 어떤 것이 원하는 용도에 해당하는지, 어떤 것이 원하지 않는지 알아내야 하는 웹사이트에 과도한 부담을 줍니다.

    크롤러가 일반적으로 robots.txt의 제한을 준수하는지 알고 있나요?

    롱프레: 많은 대기업은 그들의 규칙이나 절차가 무엇인지 명확하게 설명하는 문서를 가지고 있습니다. 예를 들어, 인류학적그들은 ClaudeBot의 robots.txt를 존중한다고 말합니다. 그러나 이러한 회사 중 다수는 최근에 뉴스에 오르기도 했습니다. 그들은 비난을 받았다 ~의 ~ 아니다 로봇을 존중합니다.txt 그리고 어쨌든 웹사이트 크롤링. AI 회사가 하는 일과 그들이 하는 일에 대한 비난 사이에 불일치가 있는 이유는 외부에서 분명하지 않습니다. 하지만 크롤링을 사용하는 많은 친사회적 그룹(소규모 스타트업, 학계, 비영리 단체, 언론인)은 robots.txt를 존중하는 경향이 있습니다. 그들은 이러한 제한의 의도된 대상이 아니지만, 제한에 의해 차단됩니다.

    맨 위로 돌아가기

    보고서에서 생성 AI 시스템을 훈련하는 데 자주 사용되는 세 가지 훈련 데이터 세트를 살펴보았는데, 이는 모두 지난 몇 년 동안 웹 크롤링에서 생성되었습니다. 2023년부터 2024년까지 크롤링된 도메인 수가 매우 크게 증가했지만 그 이후로 제한되었습니다. 그 결과에 대해 말씀해 주시겠습니까?

    롱프레: 우리가 발견한 것은 특정 데이터 세트를 살펴보면 다음과 같습니다. C4매우 인기가 많고 2019년에 만들어졌는데, 1년도 채 되지 않아 기본 웹사이트의 선호도를 존중하거나 고수하는 경우 데이터의 약 5%가 철회되었습니다. 5%는 그렇게 많은 양은 아니지만, 이 데이터 부분이 주로 최고 품질, 가장 잘 유지 관리되고 가장 최신의 데이터에 해당한다는 것을 깨닫게 되면 그만큼 많은 양입니다. 이 C4 데이터 세트에서 상위 2,000개 웹사이트를 살펴보았을 때(이들은 크기 기준 상위 2,000개이며, 대부분 뉴스, 대규모 학술 사이트, 소셜 미디어, 잘 큐레이팅된 고품질 웹사이트입니다) 상위 2,000개에 있는 데이터의 25%가 그 이후로 철회되었습니다. 이는 robots.txt를 존중하는 모델에 대한 학습 데이터의 분포가 고품질 뉴스, 학술 웹사이트, 포럼, 소셜 미디어에서 더 조직적이고 개인적인 웹사이트, 전자 상거래, 블로그로 빠르게 이동하고 있음을 의미합니다.

    ChatGPT나 Perplexity의 향후 버전에서 복잡한 질문에 답하도록 요청하고 개인 블로그나 쇼핑 사이트에서 정보를 가져오는 경우 문제가 될 수 있는 듯합니다.

    롱프레: 정확히 그렇습니다. 이것이 모델에 어떤 영향을 미칠지 측정하기는 어렵지만, robots.txt를 존중하는 모델의 성능과 이미 이 데이터를 확보하고 어차피 이를 기반으로 훈련할 의향이 있는 모델의 성능 사이에 격차가 있을 것으로 예상합니다.

    하지만 오래된 데이터 세트는 여전히 그대로입니다. AI 회사가 오래된 데이터 세트를 그냥 사용할 수 있을까요? 그 단점은 무엇일까요?

    롱프레: 글쎄요, 지속적인 데이터 신선도는 정말 문제. robots.txt가 소급적으로 적용될 수 있는지도 명확하지 않습니다. 출판사들은 그럴 수 있다고 주장할 가능성이 큽니다. 따라서 소송에 대한 귀하의 열망이나 특히 데이터의 공정한 사용을 둘러싼 소송이 진행 중인 미국에서 추세가 어디로 갈지에 따라 달라집니다. 가장 대표적인 예는 분명히 다음과 같습니다. 뉴욕 타임즈 OpenAI와 Microsoft에 대항하여하지만 지금은 많은 변형이 있습니다. 어떤 방향으로 갈지에 대한 불확실성이 많습니다.

    보고서의 이름은 “위기 상황에서의 동의.” 왜 이것을 위기라고 생각하시나요?

    롱프레: 데이터 생성자에게는 위기라고 생각합니다. 기존 프로토콜로는 원하는 것을 표현하기 어렵기 때문입니다. 그리고 비상업적이고 AI와 관련이 없는 일부 개발자의 경우, 학계와 연구자들은 이 데이터에 접근하기가 점점 더 어려워지고 있다는 것을 알게 되었습니다. 그리고 저는 이것이 위기라고 생각합니다. 너무 엉망진창이기 때문입니다. 인프라는 이 모든 다양한 사용 사례를 한 번에 수용하도록 설계되지 않았습니다. 그리고 마침내 거대한 산업이 충돌하고, 생성 AI가 뉴스 생성자와 다른 사람들과 충돌하기 때문에 문제가 되고 있습니다.

    이런 상황이 계속되고 점점 더 많은 데이터가 제한된다면 AI 회사는 무엇을 할 수 있을까? 엄청난 모델을 계속 훈련하기 위해 어떤 움직임을 취할 것인가?

    롱프레: 대기업은 직접 라이선스를 받을 것입니다. 이 데이터의 상당수가 압류되거나 수집하기 어려운 경우 일부 대기업에게는 나쁘지 않은 결과가 될 수 있지만 진입을 위한 더 큰 자본 요구 사항이 발생할 뿐입니다. 저는 대기업이 데이터 수집 파이프라인에 더 많은 투자를 하고 사용자가 생성한 귀중한 데이터 소스에 지속적으로 액세스할 수 있도록 할 것이라고 생각합니다. 유튜브 그리고 깃허브 그리고 레딧. 해당 사이트에 대한 독점적 접근권을 획득하는 것은 아마도 지적인 시장 플레이이지만, 반독점 관점에서는 문제가 있는 플레이입니다. 저는 특히 이로 인해 발생할 수 있는 독점적 데이터 수집 관계에 대해 우려하고 있습니다.

    맨 위로 돌아가기

    합성 데이터가 그 격차를 메울 수 있다고 생각하시나요?

    롱프레: 대기업들은 이미 대량으로 합성 데이터를 사용하고 있습니다. 합성 데이터에는 두려움과 기회가 모두 있습니다. 한편으로는 합성 데이터의 잠재력을 입증한 일련의 작업이 있었습니다. 모델 축소이는 점점 더 많은 생성 봇이 풀려나면서 웹에 더 자주 나타날 수 있는 저질 합성 데이터로 훈련하여 모델이 저하되는 것입니다. 그러나 고품질 필터가 있어서 저질 또는 반복적인 내용을 제거할 수 있기 때문에 대규모 모델이 크게 방해받을 가능성은 낮다고 생각합니다. 그리고 합성 데이터의 기회는 실험실 환경에서 생성될 때 매우 고품질이 될 수 있으며, 특히 미개발된 도메인을 타겟팅할 때입니다.

    우리가 다음과 같은 생각을 가지고 있다는 데 신빙성을 부여합니까? 피크 데이터? 아니면 그게 과장된 우려라고 생각하시나요?

    롱프레: 활용되지 않은 데이터가 많이 있습니다. 하지만 흥미로운 점은 그 중 많은 부분이 PDF 뒤에 숨겨져 있기 때문에 OCR을 수행해야 한다는 것입니다.[[광학 문자 인식]. 많은 데이터가 정부, 독점 채널, 비정형 형식 또는 PDF와 같이 추출하기 어려운 형식에 잠겨 있습니다. 저는 그 데이터를 추출하는 방법을 알아내는 데 훨씬 더 많은 투자가 있을 것이라고 생각합니다. 저는 쉽게 사용할 수 있는 데이터 측면에서 많은 회사가 벽에 부딪히고 합성 데이터로 전환하고 있다고 생각합니다.

    여기서 추세선은 어떻습니까? 앞으로 몇 년 동안 더 많은 웹사이트가 robots.txt 제한을 두는 것을 볼 것으로 예상하십니까?

    롱프레: 우리는 robots.txt와 서비스 측면에서 모두 제한이 증가할 것으로 예상합니다. 이러한 추세선은 우리의 작업에서 매우 명확하지만, 법률, 회사 자체의 정책 변경, 소송 결과, 작가 협회의 커뮤니티 압력 등과 같은 외부 요인의 영향을 받을 수 있습니다. 그리고 저는 데이터의 상품화가 증가함에 따라 이 공간에서 더 많은 전장이 발생할 것으로 예상합니다.

    업계 내 표준화나 웹사이트에서 크롤링에 대한 선호도를 표현하기 쉽게 만드는 측면에서 어떤 일이 일어나기를 원하시나요?

    롱프레: 에서 데이터 지방 이니셔티브우리는 확실히 새로운 표준이 등장하고 채택되어 제작자가 데이터 사용에 대한 선호도를 보다 세부적으로 표현할 수 있기를 바랍니다. 그러면 제작자의 부담이 훨씬 덜어질 것입니다. 저는 그것이 상식적인 일이고 윈윈 상황이라고 생각합니다. 하지만 이러한 표준을 만들거나 시행하는 것이 누구의 일인지는 명확하지 않습니다. [AI] 회사 스스로도 이런 결론에 도달하여 이를 실행할 수 있습니다. 하지만 표준의 설계자는 거의 필연적으로 자신의 사용에 대한 편견을 가질 것입니다. 특히 법인체인 경우 더욱 그렇습니다.

    선호도가 존중되어서는 안 된다는 것도 사실입니다. 모든 사례. 예를 들어, 저는 친사회적 연구를 하는 학자나 언론인이 누구나 직접 방문할 수 있는 웹사이트에서 이미 공개된 기계로 데이터에 접근하는 것을 반드시 금지해야 한다고 생각하지 않습니다. 모든 데이터가 동등하게 생성되는 것은 아니고 모든 용도가 동등하게 생성되는 것은 아닙니다.

    맨 위로 돌아가기

    Share post:

    Subscribe

    Popular

    More like this
    Related

    생성 AI 활용: 업계 리더를 위한 대담한 도전과 보상

    조직이 AI의 잠재력을 계속 탐구함에 따라 Microsoft 고객은 워크플로를...

    식품 안전 분야에서 AI의 필요성 증가

    특히 광범위한 조류독감 발생의 영향이 농업 부문 전반에 걸쳐...

    12월23일 정부지원사업 신규 공고 리스트 (12건) _ (파일 재가공/재배포 가능)

    12월 23일 12건<12/23지원사업 신규 공고 목록> *전 영업일인 12/20에 올라온...

    Waste Robotics와 Greyparrot가 분류 로봇을 강화하는 방법

    Waste Robotics는 FANUC 로봇 팔을 사용하여 안정적이고 정확한 피킹을...