GN⁺: AI 기업들, OpenStreetMap 스크래핑 대신 $10k 기부는 어떨까요?
(en.osm.town)en.osm.town 소개
- en.osm.town은 Mastodon을 기반으로 한 분산형 소셜 네트워크의 일부임
- OpenStreetMap 커뮤니티의 독립적인 커뮤니티로, OpenStreetMap Foundation의 자금 지원을 받음
- 서버 통계: 257명의 활성 사용자
주요 내용
- Grant Slater는 AI 회사들에게 OpenStreetMap 데이터를 몰래 스크래핑하지 말고 $10,000 기부를 제안함
- $50,000 기부 시 실시간 스트리밍 업데이트도 제공 가능함
- Bart Louwers는 OpenStreetMap 스크래핑이 흔하다고 언급함
- wikiyu는 planet.osm 데이터를 사용하는 것이 더 효율적이라고 주장함
- Josua는 AI가 비효율적인 방식으로 학습하고 있다고 비판함
- Juan Luis는 Read the Docs에서도 유사한 AI 크롤러 남용 문제가 발생하고 있다고 언급함
- Simon Poole은 합리적인 방법이 AI 회사의 이미지를 손상시킬 수 있다고 주장함
- Michał은 특정 국가의 계약자가 OSM 데이터를 다운로드하는 임무를 받았을 가능성을 제기함
- leadingzero는 OSM 라이선스 요구 사항이 제대로 시행되지 않는다고 비판함
- Grant Slater는 타일 속성 추적을 위한 GitHub 저장소를 만들었다고 언급함
- Guillaume Rischard는 최근 독일에서 법적 문제를 해결했다고 언급함
- Adderall girl grindset (Jes)는 AI 크롤러를 차단할 것을 제안함
GN⁺의 정리
- 이 글은 OpenStreetMap 데이터를 스크래핑하는 AI 회사들에 대한 문제를 다루고 있음
- OpenStreetMap 데이터를 효율적으로 사용하는 방법과 기부를 통한 데이터 접근 방식을 제안함
- AI 크롤러의 남용 문제와 그에 대한 대응 방안을 논의함
- 유사한 기능을 가진 프로젝트로는 Google Maps와 Bing Maps가 있음
Hacker News 의견
- AI 크롤러들이 로봇.txt를 무시하고 공공 API를 사용하지 않으며 피크 로드를 준수하지 않아 인프라 비용이 증가함
- OpenStreetMap Foundation 의장은 OpenStreetMap 데이터를 무료로 대량 다운로드할 수 있으며, 스크래핑 대신 이를 사용할 것을 권장함
- 스크래핑은 기부된 자원에 높은 부하를 주며, 스크래핑 IP를 차단하는 데도 시간과 노력이 필요함
- 자원과 시간을 존중하는 것이 서비스를 무료로 유지하는 데 도움이 됨
- OpenStreetMap 인스턴스를 10분 만에 설정할 수 있으며, 이는 단순한 'docker run' 명령으로 가능함
- 인덱싱에 시간이 걸리지만, 이는 자원에 비해 오래 걸리지 않음
- OSM 데이터를 필요로 했으나, 데이터를 얻는 방법을 제대로 이해하지 못했음
- 100GB의 대용량 파일을 다운로드하고, 불명확한 형식과 라이브러리를 사용해야 함
- 정보가 분산되어 있으며, HTTP API는 제한적이거나 속도 제한이 있음
- 결국 사전 변환된 OSM 데이터를 제공하는 무료 프로젝트를 사용함
- OP는 웹사이트와 매핑 API를 공격적으로 스크래핑하는 크롤러를 제한하고 차단한 후, 비꼬는 반응을 보였음
- OpenStreetMap 데이터는 무료로 다운로드 가능하며, AWS S3 및 토렌트를 통해 제공됨
- 처음 시작하는 경우, 작은 지역 추출 데이터를 사용하는 것이 좋음
- planet.osm을 토렌트에 올리고, 스크래핑을 토렌트를 통해서만 허용하면 네트워크 부하를 분산시킬 수 있음
- AI 크롤러들이 웹 인터페이스를 통해 모든 파일의 모든 개정을 요청하는 것은 비효율적임
- 이는 전력과 자원을 낭비하게 함
- AI 회사들을 위한 허니팟을 만들어 무한 루프의 무의미한 콘텐츠를 생성하는 것을 제안함
- CommonCrawl 같은 프로젝트가 다양한 회사들이 서버를 스크래핑할 필요성을 제거하지 못한 것이 아쉬움
- 이는 더 자주 방문하고 싶어하거나, 투자자들에게 인상을 주기 위해 많은 VC 자금을 사용하기 때문임
- AI 회사들이 OSM에서 무엇을 스크래핑하는지에 대한 질문이 있음