스터디 노트

Chapter 09

웹 크롤러 설계

검색 엔진 인덱싱용 크롤러. URL 프런티어, DNS 조회, robots.txt, 콘텐츠 파싱·저장, 중복 제거, 성능/확장성/안정성/예의성.

작성 예정

URL 프런티어, DNS 조회, robots.txt, 중복 제거(Bloom 필터), 예의성 등을 정리한다.