분류
Nodejs
이벤트 중심 웹 크롤러
본문
노드를 위한 유연한 이벤트 중심 크롤러.
https://github.com/simplecrawler/simplecrawler
simplecrawler는 웹 사이트 크롤링을 위한 유연하고 강력한 기본 API를 제공하도록 설계되었습니다.
매우 큰 웹 사이트를 보관, 분석 및 검색하기 위해 작성되었으며, 수십만 페이지를 간단히 문제 없이 디스크에 수십 기가 바이트를 썼습니다.
simplecrawler는 무엇을합니까?
- EventEmitter를 사용하여 매우 간단한 이벤트 중심 API 제공
- 자신의 크롤러 작성을 위한 매우 구성 가능한 기반
- 링크 된 리소스를 자동 감지하기 위한 간단한 로직을 제공합니다.
- robots.txt 규칙을 자동으로 준수
- 디스크에 고정 및 제상 할 수 있는 유연한 대기열 시스템
- 네트워크 성능에 대한 기본 통계를 제공합니다
- 이진 데이터를 보존하면서 데이터를 가져오고 관리하기 위해 버퍼를 사용합니다 (링크를 발견 할 때 제외)
- 이전글Google Maps API 웹 서비스 라이브러리 19.08.16
- 다음글JavaScript minifier. 19.08.16