GN⁺: AI 기업들, OpenStreetMap 스크래

▲

neo 4달전 | parent | favorite | on: GN⁺: AI 기업들, OpenStreetMap 스크래핑 대신 $10k 기부는 어떨까요?(en.osm.town)

Hacker News 의견

AI 크롤러들이 로봇.txt를 무시하고 공공 API를 사용하지 않으며 피크 로드를 준수하지 않아 인프라 비용이 증가함
OpenStreetMap Foundation 의장은 OpenStreetMap 데이터를 무료로 대량 다운로드할 수 있으며, 스크래핑 대신 이를 사용할 것을 권장함
- 스크래핑은 기부된 자원에 높은 부하를 주며, 스크래핑 IP를 차단하는 데도 시간과 노력이 필요함
- 자원과 시간을 존중하는 것이 서비스를 무료로 유지하는 데 도움이 됨
OpenStreetMap 인스턴스를 10분 만에 설정할 수 있으며, 이는 단순한 'docker run' 명령으로 가능함
- 인덱싱에 시간이 걸리지만, 이는 자원에 비해 오래 걸리지 않음
OSM 데이터를 필요로 했으나, 데이터를 얻는 방법을 제대로 이해하지 못했음
- 100GB의 대용량 파일을 다운로드하고, 불명확한 형식과 라이브러리를 사용해야 함
- 정보가 분산되어 있으며, HTTP API는 제한적이거나 속도 제한이 있음
- 결국 사전 변환된 OSM 데이터를 제공하는 무료 프로젝트를 사용함
OP는 웹사이트와 매핑 API를 공격적으로 스크래핑하는 크롤러를 제한하고 차단한 후, 비꼬는 반응을 보였음
- OpenStreetMap 데이터는 무료로 다운로드 가능하며, AWS S3 및 토렌트를 통해 제공됨
- 처음 시작하는 경우, 작은 지역 추출 데이터를 사용하는 것이 좋음
planet.osm을 토렌트에 올리고, 스크래핑을 토렌트를 통해서만 허용하면 네트워크 부하를 분산시킬 수 있음
AI 크롤러들이 웹 인터페이스를 통해 모든 파일의 모든 개정을 요청하는 것은 비효율적임
- 이는 전력과 자원을 낭비하게 함
AI 회사들을 위한 허니팟을 만들어 무한 루프의 무의미한 콘텐츠를 생성하는 것을 제안함
CommonCrawl 같은 프로젝트가 다양한 회사들이 서버를 스크래핑할 필요성을 제거하지 못한 것이 아쉬움
- 이는 더 자주 방문하고 싶어하거나, 투자자들에게 인상을 주기 위해 많은 VC 자금을 사용하기 때문임
AI 회사들이 OSM에서 무엇을 스크래핑하는지에 대한 질문이 있음