▲neo 4달전 | parent | favorite | on: GN⁺: Playwright를 이용한 슈퍼마켓 가격 추적(sakisv.net)Hacker News 의견 비슷한 문제를 겪은 경험 공유 30개국에서 렌즈 가격 비교 웹사이트 운영 중 웹사이트의 HTML 변경이 큰 문제임 100개 이상의 웹사이트에서 제품 매칭이 초기 큰 장애물 정규 표현식으로 대부분 처리 가능하지만, 수동으로 매핑 필요 스크래퍼와 인프라 구축은 쉬운 편, 유지보수가 어려움 제품이 사라질 때 오류 원인 파악이 어려움 재미있는 프로젝트지만 도전적이고 귀찮은 문제 해결 필요 뉴질랜드에서 유사한 프로젝트 진행 중 Playwright와 Typescript 사용, 클라우드 스토리지에 파케이 파일 저장 데이터 수집만 하고 아직 표시하지 않음 Akamai와 Cloudflare 같은 역방향 프록시 서비스 우회가 주요 작업 뉴질랜드에서 최소 3개의 스타트업이 같은 작업 수행 중 인플레이션이 많은 혁신을 자극함 슈퍼마켓이 가격을 복잡하게 만드는 패턴 관찰 유사한 웹사이트를 만들어 많은 관심을 받음 Linode 서버에서 2GB RAM, 5 IPv4, 1000 IPv6 사용 모든 제품을 최대 40분 간격으로 스크래핑 curl impersonate와 JSON 스크래핑 사용 90%의 시장이 Ajax 호출로 가격 제공, 나머지 10%는 정규 표현식 사용 웹사이트: economizafloripa.com.br 호주의 두 주요 슈퍼마켓이 가격 분석 AI 알고리즘을 통해 독점 가능성 AI 알고리즘이 협력하여 이익 극대화 가능 공공 가격 데이터를 통해 합법적으로, 공급 비용이나 제품당 이익 데이터를 공유하여 불법적으로 가능 소비자는 최대화된 이익을 지불하게 됨 스웨덴 시장에서 8년 이상 활동 중 웹사이트: matspar.se 고객이 모든 주요 온라인 상점의 제품을 비교하고 장바구니에 추가 가능 총 가격 비교 후 원하는 상점으로 장바구니 내보내기 가능 매일 3천만 개 이상의 가격 스크래핑 가격 투명성이 있으면 추적이 더 쉬워질 것 예: 다른 우편번호와 식료품점에서 귀리 우유 가격 비교 "Shrinkflation" 추적 가능성 (같은 가격에 더 작은 양 제공) 가격뿐만 아니라 그램당 비용도 확인 필요 스크래퍼가 실패하지 않도록 변경하는 방법 가격이 비정상적으로 변하지 않도록 자동 검사 추가 가능 예: 가격이 100% 이상 변하지 않도록, 활성 제품 수가 20% 이상 변하지 않도록 새로운 지역으로 이사할 때 가격 추적 경험 공유 두 개의 시장이나 대형 상점에서 저렴한 가격으로 쇼핑하는 것이 더 쉬움 유럽: Aldi/Lidl, 미국: Costco/Trader Joe's 온라인: CamelCamelCamel/Amazon 제조업체에서 직접 구매가 더 저렴할 수 있음 스크래핑보다 점점 더 정교해지는 차단기를 우회하는 것이 어려움 주거용 프록시를 지속적으로 회전시키고 데이터 스크래핑 패턴을 피해야 함 일부 슈퍼마켓은 네트워크 요청을 숨김 모바일 앱에서 네트워크 요청과 데이터를 확인하는 것도 차단됨 비용과 지속적인 개발 작업 때문에 가치가 없다고 판단 클라이언트 측 자바스크립트로 렌더링되는 문제 아이러니하게도 사이트를 채우는 데이터가 간단한 JSON 형식으로 제공되어 스크래핑이 더 신뢰성 있음
Hacker News 의견
비슷한 문제를 겪은 경험 공유
뉴질랜드에서 유사한 프로젝트 진행 중
유사한 웹사이트를 만들어 많은 관심을 받음
호주의 두 주요 슈퍼마켓이 가격 분석 AI 알고리즘을 통해 독점 가능성
스웨덴 시장에서 8년 이상 활동 중
가격 투명성이 있으면 추적이 더 쉬워질 것
스크래퍼가 실패하지 않도록 변경하는 방법
새로운 지역으로 이사할 때 가격 추적 경험 공유
스크래핑보다 점점 더 정교해지는 차단기를 우회하는 것이 어려움
클라이언트 측 자바스크립트로 렌더링되는 문제