정보실

웹학교

정보실

기타 Dataflow Kit - 간단한 포인트 앤 클릭 툴킷으로 웹 사이트 데이터를 구조화 된 데이터로 전환

본문

웹 사이트를 유용한 데이터로 전환


https://dataflowkit.com/ 


spider 



간단한 포인트 앤 클릭 툴킷으로 사람들이 웹 사이트에서 정보를 추출 할 수 있도록 도와줍니다.


Dataflow Kit는 Go로 작성된 웹 스크랩핑 오픈 소스 프레임 워크입니다.


Dataflow Kit는 어떤 유형의 데이터를 추출 할 수 있습니까? 


  • 전자 상거래 판매자는 추가 분석을 위해 경쟁 업체의 소매 업체 사이트에서 가격, 리뷰 및 등급을 포함한 제품 정보를 수집합니다. 이를 통해 소매 업체는 새로운 고객을 유치하고 판매를 늘리며 경쟁 업체와 대결 할 수 있는 좋은 기회를 제공합니다.
  • 채용 담당자는 정기적으로 방대한 양의 채용 공고, 회사 프로필, 고용주를 구직자와 연결하는 직원 프로필을 집계, 모니터링 및 개선합니다. 대부분의 작업 보드는 원래 웹 사이트에 대한 링크를 유지하면서 웹 사이트에서 이 세련된 데이터를 사용합니다.
  • 여행 및 접객 회사는 여러 여행 포털에서 호텔 리뷰, 가격, 고객 정서를 수집 한 다음이 데이터를 사용하여 비즈니스 인텔리전스를 구축합니다.
  • 부동산 중개업자는 부동산 주소, 세부 사항, 가격 등의 세부 정보를 긁습니다. 이는 부동산 중개업자가 부동산 리스팅을 추적하거나 판매자 및 에이전트가 사용할 수 있는 부동산 데이터베이스를 작성하는 데 도움이 됩니다.


데이터 추출 및 전달 프로세스 


1. 웹 페이지 열기 

Behind-The-Scenes 헤드리스 Chrome 브라우저는 JavaScript 기반 웹 페이지를 올바르게 렌더링 하는 데 사용됩니다.

how1.png 


2. 클릭하여 데이터를 선택하십시오 

  • 선택적으로 트림, 위, 아래, 대문자 필터 또는 정규식 빌드를 확인하십시오.
  • "다음"링크 또는 "무한 스크롤"또는 "추가로드"버튼에서 페이지 유형을 선택하십시오.
  • 링크 및 자세한 페이지 처리를 따르십시오.

how2.png 


3.결과 다운로드

  • 크롤러를 시작하여 링크를 따르고 지정된 페이지에서 컨텐츠를 추출하십시오.
  • CSV, Excel, JSON / JSON 라인 또는 XML에서 사용 가능한 형식 중 하나를 선택하십시오.
  • 구문 분석 된 데이터를 다운로드하십시오.

how3.png 




https://github.com/slotix/dataflowkit 




페이지 정보

조회 39회 ]  작성일20-02-10 09:53

웹학교