▲neo 2달전 | parent | favorite | on: GN⁺: Cloudflare의 새로운 마켓플레이스, 웹사이트가 AI 스크래핑 봇 에 요금 부과 가능(techcrunch.com)Hacker News 의견 Common Crawl은 OpenAI와 Antropic과 함께 "Providers" 목록에 포함됨 Common Crawl은 AI 훈련 외에도 다양한 용도로 사용됨 Wayback Machine의 주요 콘텐츠 소스임 Common Crawl 프로젝트의 목적은 여러 회사가 개별적으로 크롤러를 운영하는 대신, Common Crawl이 데이터를 수집하고 표준 형식으로 제공하는 것임 CloudFlare가 콘텐츠 접근을 제한하면 큰 영향을 미칠 수 있음 대부분의 웹사이트가 보안 제품을 사용하여 접근을 제한하는 세상이 올 수 있음 OpenFoodFacts와 OpenStreetMap, Wikipedia는 DDoS 공격을 받음 무료로 데이터를 다운로드할 수 있음에도 불구하고 봇이 모든 것을 스크랩함 이로 인해 불필요한 트래픽이 발생하고 비용이 증가함 이는 저작권 문제가 아니라 봇의 비효율성과 운영자의 무관심 때문임 해결책이 필요함 크롤링을 방지하는 것은 무의미한 작업일 수 있음 이 기능은 이미 많은 데이터를 크롤링한 대형 플레이어를 더욱 강화할 수 있음 잘못된 긍정과 과도한 캡차로 인해 사용자에게 영향을 미칠 수 있음 Cloudflare는 새로운 방식으로 남용으로부터 보호하는 서비스를 제공함 Cloudflare는 남용자와 협력하여 "마켓플레이스"를 형성함 Cloudflare의 서비스를 사용하지 않으면 남용이 계속될 것임 이는 보호비를 요구하는 행위와 유사할 수 있음 월드 와이드 웹의 미래에 대한 의문 영원히 지속될 것 같았지만, 언젠가는 IRC처럼 사라질 수 있음 황금기는 이미 지나갔고, "AI"는 끝의 시작일 수 있음 Cloudflare 블로그에서 더 많은 세부 정보를 확인할 수 있음 AI Audit의 데모는 웹사이트 소유자가 AI 모델이 사이트를 어떻게 스크랩하는지 볼 수 있게 함 OpenAI, Meta, Amazon 등의 스크래퍼가 사이트를 방문한 횟수를 볼 수 있음 AI Audit를 사용한 Bingeclock의 예시 Cloudflare의 발표 이후 48시간 동안의 흥미로운 변화 결제 프로그램은 흥미롭지만, 트래픽 감소로 인해 웹사이트가 비효율적으로 될 수 있음 AI 스크래퍼는 최소한의 결제만 할 가능성이 높음 다음 단계: 생성형 AI를 사용하여 콘텐츠를 생성하고, Cloudflare가 이를 스캔할 때 결제를 받음 동일한 사이트를 반복적으로 스크랩하는 것은 큰 낭비임 Cloudflare가 변경 사항과 업데이트를 관리할 수 있다면 많은 자원을 절약할 수 있음 사이트가 Cloudflare에 변경 사항을 직접 알리고, Cloudflare가 AI에 이를 전달함 AI가 변경 사항을 구매하고, Cloudflare가 사이트에 결제하고 마진을 유지함
Hacker News 의견
Common Crawl은 OpenAI와 Antropic과 함께 "Providers" 목록에 포함됨
OpenFoodFacts와 OpenStreetMap, Wikipedia는 DDoS 공격을 받음
크롤링을 방지하는 것은 무의미한 작업일 수 있음
Cloudflare는 새로운 방식으로 남용으로부터 보호하는 서비스를 제공함
월드 와이드 웹의 미래에 대한 의문
Cloudflare 블로그에서 더 많은 세부 정보를 확인할 수 있음
AI Audit를 사용한 Bingeclock의 예시
다음 단계: 생성형 AI를 사용하여 콘텐츠를 생성하고, Cloudflare가 이를 스캔할 때 결제를 받음
동일한 사이트를 반복적으로 스크랩하는 것은 큰 낭비임