곧 트럼프 행정부 1 월 말 미국에서 취임 한 여러 정부 웹 사이트 및 데이터베이스에서 8,000 페이지가 넘는 페이지가 중단되었습니다. 뉴욕 타임즈 설립하다. 이들 중 다수는 이제 복원되었지만 수천 페이지가 성별 및 다양성 이니셔티브에 대한 언급이 지워졌으며 미국 국제 개발 (USAID) 웹 사이트를 포함한 다른 페이지는 남아 있습니다.
2 월 11 일까지 a 연방 판사는 판결을 내 렸습니다 정부 기관은 질병 통제 및 예방 센터 (CDC)와 식품의 약국 (FDA)이 관리하는 페이지 및 데이터 세트에 대한 대중의 접근을 복원해야합니다. 많은 과학자들이 공황 상태에서 아이러니하게도 온라인 아카이브로 도망했지만그는 법무부가 사건을 가져온 의사가 제거 된 정보가 있었기 때문에 해를 입지 않았다고 주장했다. 인터넷 아카이브에서 사용할 수 있습니다의 웨이백 머신. 이에 따라 연방 판사 썼다,“법원은 설득되지 않았다”고, 사용자는 보관 된 페이지의 원래 URL을 알아야한다는 점을 지적했다.
행정부의 법적 주장은“약간의 흥미로운 찬사였다”고 말했다. 마크 그레이엄이사 웨이 백 머신판사의 판결은“Apropos”라고 생각합니다. 지난 몇 주 동안 인터넷 아카이브 및 기타 아카이브 사이트는 정부 데이터베이스 및 웹 사이트를 보존하는 데 주목을 받았습니다. 그러나이 프로젝트는 몇 년 동안 진행되어 왔습니다. 예를 들어, 인터넷 아카이브는 거의 30 년 전에 지식에 대한 보편적 인 액세스를 제공하기위한 비영리 단체로 설립되었으며 현재 매일 10 억 개 이상의 URL을 기록하고 있다고 Graham은 말합니다.
2008 년부터 Internet Archive는 액세스 가능한 사본을 주최했습니다. 용어 웹 아카이브의 끝행정 변경 전후에 연방 정부 사이트로 변경되는 협업. 가장 최근의 컬렉션에서는 이미 500 개 이상의 테라 바이트의 재료를 보관했습니다.
보완 크롤링
Graham은 인터넷 아카이브의 강점은 규모라고 말합니다. “우리는 자주 할 수 있습니다 [preserve] 신속하게, 규모가 빨라집니다. 그러나 우리는 분석에 깊은 경험이 없습니다.” 한편, 그룹과 같은 그룹 환경 데이터 및 거버넌스 이니셔티브 그리고 건강 관리 기자 협회 변화를 식별하고 문서화하는 활동가 및 학자에게 도움을 제공합니다.
하버드 로스쿨의 도서관 혁신 연구소도 그 노력에 참여했습니다. Data.gov의 아카이브311,000 개 이상의 공개 데이터 세트가 포함되어 있고 매일 새로운 데이터로 업데이트되는 16 TB 컬렉션. 이 프로젝트는 2024 년 후반에 도서관이 다른 웹 크롤링에서 데이터 세트가 종종 누락된다는 것을 깨달았을 때 시작되었다고 말했다. 잭 쿠시만소프트웨어 엔지니어이자 도서관 혁신 연구소의 이사.
“JavaScript 또는 버튼 또는 양식으로 상호 작용 해야하는 모든 것을 놓칠 수 있습니다.” —Jack Cushman, 도서관 혁신 연구소
일반적인 크롤링에는 기본 HTML, PDF 또는 CSV 파일을 캡처하는 데 어려움이 없습니다. 그러나 데이터베이스에 의해 주도되는 대화식 웹 서비스를 보관하는 것은 어려운 일입니다. 예를 들어 아마존과 같은 사이트를 보관하는 것은 불가능할 것이라고 Graham은 말합니다.
LIL (Library Innovation Lab)이 아카이브를 위해 노력하고있는 데이터 세트는 캡처하기가 비슷합니다. “웹 크롤링을하고 링크에서 링크로 클릭하는 경우, 용어 아카이브의 끝과 마찬가지로 JavaScript 또는 버튼과 상호 작용 해야하는 모든 것을 놓칠 수 있습니다. 허가를 받고 등록하거나 다운로드하십시오.”라고 Cushman은 설명합니다.
“우리는 기존 웹 크롤링에 보완적인 일을하고 싶었고, 우리가 한 방식은 API에 들어가는 것이 었습니다.”라고 그는 말합니다. 웹 페이지를 우회하여 데이터에 직접 액세스 할 수있는 API로 이동하여 LIL의 프로그램은 CSV, Excel, XML 또는 기타 파일 유형 (CSV, Excel, XML 또는 기타 파일 유형)이라면 데이터 세트의 전체 카탈로그를 가져올 수 있으며 관련 URL을 가져와 아카이브를 만듭니다. Data.gov의 경우 Cushman과 그의 동료들은 쿼리 당 1,000 개의 항목을 가져 오는 올바른 300 개의 쿼리를 보내기 위해 스크립트를 작성한 다음 300,000 개의 총 항목을 통해 데이터를 수집합니다. Cushman은“우리가 찾고있는 것은 일부 자동화가 잠금 해제되지 않는 많은 새로운 데이터를 잠금 해제하는 영역입니다.
LIL 아카이브의 또 다른 중요한 요소는 데이터가 사용 가능한 형식인지 확인하는 것이 었습니다. “웹 크롤링에서 무언가를 얻을 수 있습니다 [the data] 100,000 개의 웹 페이지에 걸쳐 있지만 스프레드 시트 나 분석 할 수있는 것으로 되돌릴 수는 없습니다.”라고 Cushman은 말합니다. 데이터 형식과 사용자 인터페이스 모두에서 사용할 수있게하면 지속 가능한 아카이브를 만드는 데 도움이됩니다.
많은 사본이 물건을 안전하게 유지합니다
인터넷 데이터를 보존하는 핵심은 약어 잠금 장치가 진행되는 원칙입니다. 많은 사본이 물건을 안전하게 유지합니다.
지난 10 월 인터넷 아카이브가 사이버 공격을 받았을 때 아카이브는 3 주 반 동안 사이트를 중단하여 전체 사이트를 감사하고 보안 업그레이드를 구현했습니다. “도서관은 전통적으로 있습니다 항상 공격을 받았습니다이것은 다르지 않습니다.”라고 Graham은 말합니다. 방어의 일환으로 아카이브 이제 미국 내부와 외부에서 이종 물리적 위치에 재료의 여러 사본이 있습니다.
Graham은“미국 정부는 세계 최대의 출판사입니다. 그것은 광범위한 주제에 대한 자료를 출판하며,“이 나라에서뿐만 아니라 에너지 나 건강, 농업 또는 안보에 관계없이 전 세계의 사람들에게 유익합니다.” 그리고 많은 개인과 조직이 디지털 세계의 보존에 기여하고 있다는 사실은 실제로 좋은 일입니다.
“목표는 그 사본이 당신이 생각할 수있는 모든 지표에 걸쳐 다양하게하는 것입니다. 그들은 다른 종류의 미디어에 있어야합니다. 그들은 다른 자금 출처를 가진 다른 사람들에 의해 다른 형식의 다른 형식으로 통제되어야합니다.”라고 Cushman은 말합니다. “백업 간의 모든 형태의 유사성은 손실의 위험을 초래합니다.” data.gov 아카이브에는 백업으로 다른 사람과 클라우드 서비스를 통해 기본 사본이 저장되어 있습니다. 아카이브에는 또한 오픈 소스 소프트웨어가 포함되어있어 쉽게 복제 할 수 있습니다.
Cushman은 사본을 유지하는 것 외에도 암호화 서명과 타임 스탬프를 포함하는 것이 중요하다고 말합니다. 아카이브가 생성 될 때마다 제작자의 이메일 주소와 시간에 대한 암호화 증거로 서명하여 아카이브의 유효성을 확인할 수 있습니다.
지속적인 도전
트럼프 대통령이 취임 한 이후 미국 연방 웹 사이트에서 많은 자료가 제거되었습니다.–Graham은 이전의 새로운 행정부보다 정량적으로 더 많은 것입니다. 그러나 전 세계적으로 이것은 전례가없는 것이 아니라고 덧붙였다.
미국에서는 Bill Clinton의 이후 공식 정부 웹 사이트가 새로운 행정부마다 변경되었습니다. 제이슨 스콧인터넷 아카이브의 “무료 레인지 아카이브리스트”및 디지털 보존 사이트의 공동 창립자 아카이브 팀. Scott은“이것은 더 혼란 스럽습니다. 그러나 “웹은 매우 높은 엔트로피 엔티티입니다 … Google은 슈퍼마켓이 음식 박물관과 같은 아카이브입니다.”
디지털 아카이브리스트의 임무는 어려운 일이며, 특히 인터넷 표준의 진화에 전반에 존재했던 사이트의 백 로그가있는 것입니다. 그러나 이러한 노력은 새로운 것이 아닙니다. Scott은“램핑 업은 진행중인 프로세스가 아니라 디스크 공간 및 대역폭 자원 측면에서만 가능합니다.
Cushman의 경우,이 프로젝트에 대한 작업은 공개 데이터의 가치를 강조했습니다. “우리가 가진 정부 데이터는 GPS 신호와 같습니다.”라고 그는 말합니다. “어디로 가야할지 알려주지는 않지만 우리 주변에 무엇이 있는지 알려 주므로 결정을 내릴 수 있습니다. 이런 식으로 처음으로 참여하는 것은 우리가 가진 보물이 무엇인지 정말로 이해하는 데 도움이되었습니다.”