분류 sql

데이터 수집

컨텐츠 정보

  • 조회 301 (작성일 )

본문

  • Amazon Kinesis - 대규모 스트리밍 데이터 실시간 처리
  • Amazon Web Services Glue - 서버리스 완전 관리 추출, 변환 및 로드 (ETL) 서비스
  • Apache Chukwa - 데이터 수집 시스템
  • Apache Flume - 대량의 로그 데이터를 관리하는 서비스.
  • Apache Kafka - 분산 발행-구독 메시징 시스템.
  • Apache NiFi - Apache NiFi는 이종 시스템 간의 데이터 이동을 자동화 하기 위한 통합 데이터 물류 플랫폼입니다.
  • Apache Sqoop - Hadoop과 구조화 된 데이터 저장소간에 데이터를 전송하는 도구
  • Cloudera Morphlines - Solr, HBase 및 HDFS에 ETL을 돕는 프레임 워크.
  • Embulk - 다양한 데이터베이스, 스토리지, 파일 형식 및 클라우드 서비스 간의 데이터 전송을 돕는 오픈 소스 벌크 데이터 로더.
  • Facebook Scribe - 스트리밍 로그 데이터 수집기.
  • Fluentd - 이벤트 및 로그를 수집하는 도구입니다.
  • Google Photon - 높은 확장 성과 낮은 지연 시간으로 연속적으로 흐르는 여러 데이터 스트림을 실시간으로 결합하기 위한 지리적으로 분산 된 시스템.
  • Heka - 오픈 소스 스트림 처리 소프트웨어 시스템.
  • HIHO - 서로 다른 데이터 소스를 Hadoop과 연결하기 위한 프레임 워크
  • Kestrel - 분산 메시지 큐 시스템.
  • LinkedIn Databus - 데이터베이스에 대한 변경 스트림 캡처 이벤트
  • LinkedIn Kamikaze - 정렬 된 정수 배열을 압축하기 위한 유틸리티 패키지.
  • LinkedIn White Elephant - 로그 수집기 및 대시 보드.
  • Logstash - 이벤트 및 로그 관리 도구
  • Netflix Suro - lChukwa를 기반으로 하는 Storm 및 Samza와 같은 로그 집 계기.
  • Pinterest Secor - Kafka 로그 지속성을 구현하는 서비스입니다.
  • Linkedin Gobblin - linkedin의 보편적 인 데이터 수집 프레임 워크.
  • Skizze - 확률 적 데이터 구조를 사용하여 계산 및 스케치와 관련된 모든 문제를 처리하는 스케치 데이터 저장소
  • StreamSets Data Collector - 사용하기 쉬운 IDE로 지속적인 빅 데이터 수집 인프라.
  • Yahoo Pulsar - 매우 유연한 메시징 모델과 직관적인 클라이언트 API를 갖춘 분산 된 pub-sub 메시징 플랫폼.
  • Alooma - MySQL과 같은 데이터 소스를 데이터웨어 하우스로 이동할 수 있는 서비스로서의 데이터 파이프 라인.