▲neo 4달전 | parent | favorite | on: GN⁺: AI 기업들, OpenStreetMap 스크래핑 대신 $10k 기부는 어떨까요?(en.osm.town)Hacker News 의견 AI 크롤러들이 로봇.txt를 무시하고 공공 API를 사용하지 않으며 피크 로드를 준수하지 않아 인프라 비용이 증가함 OpenStreetMap Foundation 의장은 OpenStreetMap 데이터를 무료로 대량 다운로드할 수 있으며, 스크래핑 대신 이를 사용할 것을 권장함 스크래핑은 기부된 자원에 높은 부하를 주며, 스크래핑 IP를 차단하는 데도 시간과 노력이 필요함 자원과 시간을 존중하는 것이 서비스를 무료로 유지하는 데 도움이 됨 OpenStreetMap 인스턴스를 10분 만에 설정할 수 있으며, 이는 단순한 'docker run' 명령으로 가능함 인덱싱에 시간이 걸리지만, 이는 자원에 비해 오래 걸리지 않음 OSM 데이터를 필요로 했으나, 데이터를 얻는 방법을 제대로 이해하지 못했음 100GB의 대용량 파일을 다운로드하고, 불명확한 형식과 라이브러리를 사용해야 함 정보가 분산되어 있으며, HTTP API는 제한적이거나 속도 제한이 있음 결국 사전 변환된 OSM 데이터를 제공하는 무료 프로젝트를 사용함 OP는 웹사이트와 매핑 API를 공격적으로 스크래핑하는 크롤러를 제한하고 차단한 후, 비꼬는 반응을 보였음 OpenStreetMap 데이터는 무료로 다운로드 가능하며, AWS S3 및 토렌트를 통해 제공됨 처음 시작하는 경우, 작은 지역 추출 데이터를 사용하는 것이 좋음 planet.osm을 토렌트에 올리고, 스크래핑을 토렌트를 통해서만 허용하면 네트워크 부하를 분산시킬 수 있음 AI 크롤러들이 웹 인터페이스를 통해 모든 파일의 모든 개정을 요청하는 것은 비효율적임 이는 전력과 자원을 낭비하게 함 AI 회사들을 위한 허니팟을 만들어 무한 루프의 무의미한 콘텐츠를 생성하는 것을 제안함 CommonCrawl 같은 프로젝트가 다양한 회사들이 서버를 스크래핑할 필요성을 제거하지 못한 것이 아쉬움 이는 더 자주 방문하고 싶어하거나, 투자자들에게 인상을 주기 위해 많은 VC 자금을 사용하기 때문임 AI 회사들이 OSM에서 무엇을 스크래핑하는지에 대한 질문이 있음
Hacker News 의견