Hacker News 의견
  • Common Crawl은 OpenAI와 Antropic과 함께 "Providers" 목록에 포함됨

    • Common Crawl은 AI 훈련 외에도 다양한 용도로 사용됨
    • Wayback Machine의 주요 콘텐츠 소스임
    • Common Crawl 프로젝트의 목적은 여러 회사가 개별적으로 크롤러를 운영하는 대신, Common Crawl이 데이터를 수집하고 표준 형식으로 제공하는 것임
    • CloudFlare가 콘텐츠 접근을 제한하면 큰 영향을 미칠 수 있음
    • 대부분의 웹사이트가 보안 제품을 사용하여 접근을 제한하는 세상이 올 수 있음
  • OpenFoodFacts와 OpenStreetMap, Wikipedia는 DDoS 공격을 받음

    • 무료로 데이터를 다운로드할 수 있음에도 불구하고 봇이 모든 것을 스크랩함
    • 이로 인해 불필요한 트래픽이 발생하고 비용이 증가함
    • 이는 저작권 문제가 아니라 봇의 비효율성과 운영자의 무관심 때문임
    • 해결책이 필요함
  • 크롤링을 방지하는 것은 무의미한 작업일 수 있음

    • 이 기능은 이미 많은 데이터를 크롤링한 대형 플레이어를 더욱 강화할 수 있음
    • 잘못된 긍정과 과도한 캡차로 인해 사용자에게 영향을 미칠 수 있음
  • Cloudflare는 새로운 방식으로 남용으로부터 보호하는 서비스를 제공함

    • Cloudflare는 남용자와 협력하여 "마켓플레이스"를 형성함
    • Cloudflare의 서비스를 사용하지 않으면 남용이 계속될 것임
    • 이는 보호비를 요구하는 행위와 유사할 수 있음
  • 월드 와이드 웹의 미래에 대한 의문

    • 영원히 지속될 것 같았지만, 언젠가는 IRC처럼 사라질 수 있음
    • 황금기는 이미 지나갔고, "AI"는 끝의 시작일 수 있음
  • Cloudflare 블로그에서 더 많은 세부 정보를 확인할 수 있음

    • AI Audit의 데모는 웹사이트 소유자가 AI 모델이 사이트를 어떻게 스크랩하는지 볼 수 있게 함
    • OpenAI, Meta, Amazon 등의 스크래퍼가 사이트를 방문한 횟수를 볼 수 있음
  • AI Audit를 사용한 Bingeclock의 예시

    • Cloudflare의 발표 이후 48시간 동안의 흥미로운 변화
    • 결제 프로그램은 흥미롭지만, 트래픽 감소로 인해 웹사이트가 비효율적으로 될 수 있음
    • AI 스크래퍼는 최소한의 결제만 할 가능성이 높음
  • 다음 단계: 생성형 AI를 사용하여 콘텐츠를 생성하고, Cloudflare가 이를 스캔할 때 결제를 받음

  • 동일한 사이트를 반복적으로 스크랩하는 것은 큰 낭비임

    • Cloudflare가 변경 사항과 업데이트를 관리할 수 있다면 많은 자원을 절약할 수 있음
    • 사이트가 Cloudflare에 변경 사항을 직접 알리고, Cloudflare가 AI에 이를 전달함
    • AI가 변경 사항을 구매하고, Cloudflare가 사이트에 결제하고 마진을 유지함