kunggom 2021-05-26 | parent | favorite | on: 웹 크롤러 아키텍쳐(velog.io)

아직 미완성된 글이라 그런지 뭔가 있어야 할 내용이 빠진 것처럼 보이는 곳이 몇 군데 있네요.
중간에 재방문 스케줄링에서 언급된 [Lambda Crawl]이란 건 [Effective Page Refresh Policies For Web Crawlers](2003) 논문을 말하는 걸까요? 이 키워드로 검색해보면 AWS의 서버리스 서비스인 Lambda로 크롤링하니 어쩌니 하는 이야기만 잔뜩 나와서 말이죠. 정작 아래의 참고문헌 목록에는 이 논문이 안 보이는 것 같은데…
http://ilpubs.stanford.edu:8090/604/1/2003-44.pdf

Tractable near-optimal policies for crawling 이 논문에 등장하는군요