▲neo 9달전 | parent | favorite | on: GN⁺: 파이썬에서의 웹 스크래핑 - 완벽 가이드(proxiesapi.com)Hacker News 의견 웹 크롤링과 스크래핑을 분리하는 것이 중요함. 크롤링은 URL을 찾고 HTML 콘텐츠를 가져오는 단계이고, 스크래핑은 HTML에서 구조화된 데이터를 추출하는 단계임. 두 단계를 분리하면 나중에 스크래퍼를 수정하여 기존 데이터에 빠르게 재적용할 수 있음. 파이썬 웹 스크래핑 도구로 Playwright를 추천함. 매우 강력하고 잘 설계된 브라우저 자동화 도구로, 커맨드 라인에서 직접 웹 페이지를 스크래핑할 수 있는 shot-scraper CLI 도구를 사용함. SaaS 회사들이 블로그 포스트에서 자신들의 제품을 홍보하는 것은 마케팅의 일부이지만, 초보자에게 처음으로 문제를 소개하면서 자신들의 제품을 해결책으로 제시하는 것은 항상 재미있음. 웹사이트 스크래핑에 유용한 정보가 있는 <domain>/robots.txt를 확인하는 것과 HTML 태그 파싱 대신 구조화된 메타데이터를 통해 데이터를 추출하는 것이 도움이 될 수 있음. 이를 JSON으로 추출하는 라이브러리도 있음. Python 대신 Node.js를 사용한 웹 스크래핑의 인기에 대해 의문을 제기함. npm에는 DOM 파싱을 위한 잘 만들어진 패키지들이 있고, 자바스크립트를 사용하기 때문에 더 자연스러운 DOM 기능을 사용할 수 있음. pandas의 read_html을 사용하여 링크를 간단히 가져올 수 있음. 이를 통해 웹사이트의 테이블 데이터를 쉽게 추출할 수 있음. 반복적이고 창의적이지 않은 웹 스크래핑 작업에 지쳐서 이제 LLM(Large Language Models)을 사용하여 전체 과정을 자동화하려고 시도 중임. LLM을 사용하여 웹사이트 변경에 적응하는 스크래퍼 코드를 생성하고 조정하는 것이 효율적임. 파이썬 스크래핑에 대한 완벽한 가이드가 얼마나 많은지에 대한 의문을 제기함. 현대적인 웹 스크래핑 설정에는 브라우저 에이전트가 필요하며, 주요 소셜 미디어 플랫폼이나 뉴욕타임즈 기사 등에서 데이터를 가져오기 위해서는 자체 도구를 구축해야 할 수도 있음. 스크래핑 작업 중에 requests-cache 라이브러리가 도움이 됨. 이는 requests 라이브러리를 대체하지만 모든 응답을 SQLite 데이터베이스에 캐시하여 사이트에서 제한을 받을 때 스크립트를 조정하는 데 유용함. ▲xguru 9달전 [-]이 댓글에서 중요한건 SaaS 회사들이 블로그 포스트에서 자신들의 제품을 홍보하는 것은 마케팅의 일부이지만, 초보자에게 처음으로 문제를 소개하면서 자신들의 제품을 해결책으로 제시하는 것은 항상 재미있음. 요거네요. 항상 이런 글들은 마지막에 자신들의 제품 홍보가 들어가있다는 걸 염두에 두고 봐야합니다. 반대로 말하면, 국내 업체들도 이런 방식은 기본적으로 써야한다고 생각합니다. 답변달기
Hacker News 의견
<domain>/robots.txt
를 확인하는 것과 HTML 태그 파싱 대신 구조화된 메타데이터를 통해 데이터를 추출하는 것이 도움이 될 수 있음. 이를 JSON으로 추출하는 라이브러리도 있음.read_html
을 사용하여 링크를 간단히 가져올 수 있음. 이를 통해 웹사이트의 테이블 데이터를 쉽게 추출할 수 있음.requests-cache
라이브러리가 도움이 됨. 이는requests
라이브러리를 대체하지만 모든 응답을 SQLite 데이터베이스에 캐시하여 사이트에서 제한을 받을 때 스크립트를 조정하는 데 유용함.