GN⁺: 2013년에 존재했던 웹페이지 중 38%가 10년 후 더 이상 접근 불가
(pewresearch.org)-
인터넷의 방대함과 콘텐츠의 소멸
- 수백억 개의 웹페이지가 존재하는 인터넷은 현대 생활의 방대한 저장소임.
- 그러나 사용자가 의존하는 콘텐츠는 때때로 사라짐.
- Pew Research Center의 새로운 분석에 따르면, 온라인 콘텐츠는 매우 일시적임을 보여줌.
- 2013년에서 2023년 사이에 존재했던 모든 웹페이지의 4분의 1이 2023년 10월 기준으로 더 이상 접근 불가 상태임.
- 이는 대부분 특정 웹페이지가 삭제되거나 제거되었기 때문임.
-
디지털 부패의 발생
- 정부 및 뉴스 웹사이트, 그리고 Wikipedia 페이지의 "참고 문헌" 섹션을 조사함.
- 뉴스 웹페이지의 23%가 최소 하나 이상의 깨진 링크를 포함함.
- 정부 웹사이트의 21%가 최소 하나 이상의 깨진 링크를 포함함.
- Wikipedia 페이지의 54%가 더 이상 존재하지 않는 페이지로 연결되는 링크를 포함함.
- 정부 및 뉴스 웹사이트, 그리고 Wikipedia 페이지의 "참고 문헌" 섹션을 조사함.
-
소셜 미디어에서의 디지털 부패
- 2023년 봄 동안 소셜 미디어 플랫폼 X(당시 Twitter)에서 트윗의 실시간 샘플을 수집하고 3개월 동안 추적함.
- 트윗의 약 5분의 1이 게시 몇 달 후에는 더 이상 공개적으로 보이지 않음.
- 이 경우의 60%는 원래 트윗을 게시한 계정이 비공개, 정지되거나 완전히 삭제되었음.
- 나머지 40%는 계정이 존재하지만 개별 트윗이 삭제됨.
- 2023년 봄 동안 소셜 미디어 플랫폼 X(당시 Twitter)에서 트윗의 실시간 샘플을 수집하고 3개월 동안 추적함.
-
비공개 링크와 웹페이지 정의
- 인터넷에서 존재했지만 현재 접근 불가한 페이지의 정의에는 여러 가지가 있음.
- 페이지가 더 이상 호스트 서버에 존재하지 않거나, 호스트 서버 자체가 더 이상 존재하지 않음.
- 페이지 주소는 존재하지만 콘텐츠가 변경되었음.
- 페이지가 존재하지만 특정 사용자(예: 시각 장애인)가 읽기 어려움.
- 이 보고서는 첫 번째 정의에 집중함: 더 이상 존재하지 않는 페이지.
- 인터넷에서 존재했지만 현재 접근 불가한 페이지의 정의에는 여러 가지가 있음.
-
지난 10년간의 웹페이지
- Common Crawl 아카이브에서 무작위로 약 100만 개의 웹페이지 샘플을 수집함.
- 2013년부터 2023년까지 수집된 모든 페이지의 25%가 2023년 10월 기준으로 더 이상 접근 불가 상태임.
- 2013년에 수집된 페이지의 38%는 2023년에 더 이상 접근 불가 상태임.
- Common Crawl 아카이브에서 무작위로 약 100만 개의 웹페이지 샘플을 수집함.
-
정부 웹사이트의 링크
- 2023년 3월/4월에 수집된 정부 웹사이트의 약 50만 페이지를 샘플링함.
- 페이지의 86%는 내부 링크를 포함하며, 6%는 더 이상 접근 불가 상태임.
- 전체적으로 조사된 정부 웹페이지의 21%가 최소 하나 이상의 깨진 링크를 포함함.
- 2023년 3월/4월에 수집된 정부 웹사이트의 약 50만 페이지를 샘플링함.
-
뉴스 웹사이트의 링크
- 2023년 3월/4월에 수집된 뉴스 웹사이트의 약 50만 페이지를 샘플링함.
- 뉴스 사이트의 94%는 최소 하나 이상의 외부 링크를 포함하며, 23%의 페이지가 최소 하나 이상의 깨진 링크를 포함함.
- 2023년 3월/4월에 수집된 뉴스 웹사이트의 약 50만 페이지를 샘플링함.
-
Wikipedia의 참고 링크
- 50,000개의 영어 Wikipedia 페이지를 무작위로 샘플링함.
- 수집된 페이지의 82%가 최소 하나 이상의 참조 링크를 포함하며, 참조 링크의 11%가 더 이상 접근 불가 상태임.
- 50,000개의 영어 Wikipedia 페이지를 무작위로 샘플링함.
-
Twitter의 게시물
- 2023년 봄에 500만 개의 트윗을 수집하고 3개월 동안 추적함.
- 수집된 트윗의 18%가 추적 기간 종료 시 더 이상 공개적으로 보이지 않음.
- 삭제된 트윗 중 60%는 계정이 비공개, 정지되거나 삭제됨.
- 트윗의 1%는 한 시간 이내에 삭제되며, 3%는 하루 이내, 10%는 일주일 이내, 15%는 한 달 이내에 삭제됨.
- 2023년 봄에 500만 개의 트윗을 수집하고 3개월 동안 추적함.
-
트윗의 생존 분석
- 게시된 트윗의 절반이 게시 후 첫 6일 이내에 사라짐.
- 트윗의 90%는 게시 후 46일 이내에 접근 불가 상태가 됨.
- 삭제되었으나 나중에 다시 공개된 트윗의 6%가 존재함.
Hacker News 의견
해커뉴스 댓글 모음 요약
-
Facebook 페이지의 문제점
- 많은 단체와 기업들이 Facebook 페이지만 사용하여 다른 웹 존재가 없게 됨. Facebook 계정이 필수로 요구됨.
-
아카이빙 노력
- CNN과 BBC 같은 웹사이트는 과거 콘텐츠를 아카이빙하려는 노력을 함. 예: 9/11 테러 관련 보도.
-
인터넷 아카이브 지원
- 인터넷 아카이브(archive.org)에 기부하여 오래된 콘텐츠 보존을 지원할 필요가 있음. 중요한 콘텐츠는 로컬 복사본을 만들어 두는 것이 좋음.
-
뉴스 웹사이트 운영 경험
- 2019년부터 뉴스 웹사이트를 운영하며, 매 시간마다 크롤러로 죽은 링크를 찾아 아카이브 링크로 대체함. 선거 다음 날 후보자 웹사이트가 사라지는 경우가 많음.
-
웹사이트 수명 그래프
- 2013년 이후 많은 웹사이트가 사라졌을 것으로 예상됨. 특히 커뮤니티 사이트(Angelfire, Geocities 등)의 사라짐이 큰 영향을 미침. 웹사이트 수명을 그래프로 나타내면 흥미로울 것임.
-
과거 웹사이트의 문제점
- 90년대 Angelfire에 호스팅된 첫 .com 웹사이트를 다시 보게 됨. 당시에는 괜찮았지만 현재 기준으로는 부적절한 내용이 많음.
-
인터넷의 일시성
- 인터넷의 본질적인 일시성을 받아들여야 함. 아카이빙을 원한다면 오프라인 복사본을 만드는 것이 좋음. PDF/A 형식이 아카이빙에 적합함.
-
SEO 문제
- 현재 웹의 대부분이 SEO 스팸으로 가득 차 있음.
-
링크 깨짐 문제
- 인터넷의 큰 문제로, 콘텐츠는 여전히 존재하지만 링크가 깨지는 경우가 많음. 도서관의 DOI 시스템처럼 두 단계 시스템이 도움이 될 수 있음.
-
망각과 용서의 중요성
- 모든 것이 영원히 남아있는 세상은 끔찍할 것임. 가치 있는 콘텐츠를 보존하려는 노력이 필요하며, 그 가치는 더 높이 평가됨.