AI 스크래핑 우려에 241개 뉴스 매체가 아카이브 차단
- 9개국 241개 뉴스 사이트가 인터넷 아카이브 크롤러를 차단했다
- AI 기업이 웨이백 머신을 학습 데이터 우회 수집 경로로 활용한다는 우려 때문이다
- 아카이브 측은 공공의 역사 기록 접근이 줄어든다고 반박했다
뉴스 매체들의 인터넷 아카이브 차단 현황
9개국 241개 뉴스 사이트가 robots.txt로 인터넷 아카이브 크롤러를 차단했다. 가디언, 뉴욕 타임스, 파이낸셜 타임스, 르몽드 등이 포함됐다[Nieman Lab]. 차단 사이트 중 87%는 가넷 소유 매체다. 가넷은 2025년 9월에만 7500만 건의 AI 봇을 차단했다.
웨이백 머신이 학습 데이터 우회 경로가 된 배경
인터넷 아카이브는 1조 개 이상의 웹페이지 스냅샷을 보유하고 있다. 구조화된 API로 대량 추출이 가능하다는 게 문제다. 가디언 측은 “아카이브 API가 AI 기업이 지적재산을 빨아들이기 딱 좋은 곳”이라고 했다[Nieman Lab]. 실제로 아카이브는 구글 C4 데이터셋에서 187번째로 많이 등장하는 도메인이다.
디지털 보존과 저작권의 충돌
아카이브 설립자 브루스터 케일은 “도서관을 제한하면 공공의 역사 기록 접근이 줄어든다”고 반박했다[Internet Archive]. AI 기업의 무분별한 수집이 디지털 보존 생태계를 위협하는 셈이다. 뉴스 매체는 콘텐츠를 보호하려 하지만, 공공 정보 접근성이 희생될 수 있다.
자주 묻는 질문 (FAQ)
Q: 인터넷 아카이브의 웨이백 머신이란?
A: 1996년부터 웹페이지 스냅샷을 저장해온 디지털 도서관이다. 현재 1조 개 이상의 페이지를 보유하고 있으며 누구나 무료로 과거 웹페이지를 열람할 수 있다. 비영리 단체가 운영하지만 최근 AI 학습 데이터 수집 논란의 중심에 섰다.
Q: 뉴스 매체는 어떻게 아카이브를 차단하나?
A: robots.txt 파일로 크롤러 접근을 차단한다. 웹 크롤러에게 접근 허용 또는 차단 영역을 알려주는 표준 프로토콜이다. 다만 이미 수집된 과거 데이터에는 소급 적용이 어렵다는 한계가 있다.
Q: AI 기업이 아카이브를 활용하는 이유는?
A: 방대한 웹 콘텐츠를 구조화된 API로 대량 추출할 수 있기 때문이다. 개별 사이트가 크롤링을 차단해도 이미 저장된 과거 기사를 가져올 수 있다. 구글 C4 데이터셋 기준 187번째로 많이 등장하는 도메인이다.
이 글이 유용했다면 AI Digester를 구독해주세요.
참고 자료
- News publishers limit Internet Archive access due to AI scraping concerns – Nieman Lab (2026-01-28)
- Internet Archive – Internet Archive (2026-01-28)
- The Guardian – The Guardian (2026-01-28)