웹을 보는 방법
Cloudflare의 Crawl API는 웹사이트 데이터를 수집하는 봇 기능을 제공하면서도, 자체적인 봇 차단 기술을 존중하는 점이 특징입니다.
HTTP 메시지 서명(HTTP Message Signatures) 최신 규격을 활용해 신뢰할 수 있는 크롤러임을 인증하며, CDN 캐시를 통해 여러 사용자에게 동일한 콘텐츠를 효율적으로 제공할 수 있어 서버 부하를 줄일 가능성이 있습니다.
테스트 결과, 크롤러는 CSS, 자바스크립트, 이미지 등 페이지 렌더링에 필요한 리소스도 직접 요청하며, 캐시보다는 원본 서버에 매번 요청하는 방식을 사용해 서버 요청이 초당 약 5건 수준으로 나타났습니다.
또한, 크롤링 결과는 시점에 따라 편차가 크고 일부 URL은 누락되기도 하며, 외부 링크 포함 여부 등 다양한 옵션 설정이 가능합니다.
이 서비스는 웹 아카이빙과 유사한 데이터 수집 방식을 취하며, LLM 학습용 데이터 수집에 최적화되어 있어 향후 다양한 용도로 확장될 가능성이 큽니다.