분류 Nodejs

이벤트 중심 웹 크롤러

컨텐츠 정보

  • 조회 302 (작성일 )

본문

노드를 위한 유연한 이벤트 중심 크롤러.


https://github.com/simplecrawler/simplecrawler 


simplecrawler는 웹 사이트 크롤링을 위한 유연하고 강력한 기본 API를 제공하도록 설계되었습니다. 

매우 큰 웹 사이트를 보관, 분석 및 검색하기 위해 작성되었으며, 수십만 페이지를 간단히 문제 없이 디스크에 수십 기가 바이트를 썼습니다.


simplecrawler는 무엇을합니까? 

  • EventEmitter를 사용하여 매우 간단한 이벤트 중심 API 제공
  • 자신의 크롤러 작성을 위한 매우 구성 가능한 기반
  • 링크 된 리소스를 자동 감지하기 위한 간단한 로직을 제공합니다.
  • robots.txt 규칙을 자동으로 준수
  • 디스크에 고정 및 제상 할 수 있는 유연한 대기열 시스템
  • 네트워크 성능에 대한 기본 통계를 제공합니다
  • 이진 데이터를 보존하면서 데이터를 가져오고 관리하기 위해 버퍼를 사용합니다 (링크를 발견 할 때 제외)