댓글 검색 목록

[Python] 주요 데이터 분석 개념에 대한 30,000 피트 소개

페이지 정보

작성자 운영자 작성일 20-09-21 17:13 조회 1,127 댓글 0

데이터 분석은 유용한 정보를 발견하기 위해 데이터를 검사, 정리, 변환 및 모델링 하는 프로세스입니다.

데이터 분석은 현대 세계 어디에나 있습니다. 데이터 분석은 우리가 사용하는 기술, 소프트웨어 구축 방법 및 제품 개발 방법을 알려주는 데 도움이 됩니다.

이 게시물에서는 핵심 데이터 분석 원칙과 이를 적용하는 방법을 다루며 데이터에서 의미 있는 통찰력을 캡처하고 확보하기 위해 배포 할 수 있는 예제를 제공합니다.

또한 웹 사이트 최적화, 건강 및 다이어트 앱, 농업, 보험 등 익숙한 다양한 제품에서 데이터 분석이 어떻게 사용 되는지에 대한 예를 공유 할 것입니다.

데이터가 귀하의 결정에 영향을 줄 수 있는 지침이라는 제 믿음을 공유한다면 더 연구 할 가치가 있습니다.

샘플 질문

먼저 이러한 질문에 답할 수 있는지 확인하십시오.

이러한 각 질문에 자신 있게 접근 할 수 있도록 데이터 분석의 기본 사항을 배우는 방법을 안내하겠습니다.

단일 제품을 판매하는 인터넷 소매 업체의 관리자는 웹 사이트를 방문하는 사람들이 26 %의 시간 동안 제품을 구매한다는 사실을 발견했습니다. 그는 또한 고객의 행동이 독립적인 것처럼 보인다는 것을 발견했습니다.

매일 정확히 8 명의 잠재 고객이 사이트를 방문한다고 가정합니다. 관리자가 사이트에서 3 개 이상의 판매가 발생하는 날에 대해 $300를 지불하는 인센티브 계획에 있다고 가정 해보십시오. 그렇지 않으면 그의 급여는 하루에 $100입니다.

a. 그가 임의의 날에 $300를받을 확률은 얼마입니까?

답변 : ~ 35 %

b. 임의의 날 급여의 예상 가치는 얼마입니까?

답변 : $ 170

c. 관리자는 (a) 기본 급여는 없지만 판매 당 $ 75의 커미션을 받거나 (b) 하루에 $ 160의 고정 급여를 받거나 (c) 위에 설명 된 원래 계획.

예상 수입 가치를 극대화하려면 어떤 계획을 선택해야 합니까?

답 : 원래 계획

데이터 분석의 기초

위의 질문에 답할 수 있도록 데이터에 대해 생각하고 이러한 학습을 기반으로 하는 방법을 살펴 보겠습니다.

우리가 배워야 할 데이터 분석의 첫 번째 측면은 다양한 유형의 데이터가 있다는 것입니다. 간단 하죠?

데이터는 범주 (성별, 위치 등) 또는 숫자 (고객 수, 활성 사용자 등) 일 수 있습니다.

일부 데이터는 불 연속적이며 (즉, 작업에 지원하는 구직자의 수) 다른 데이터는 연속적입니다 (가능한 결과의 무한대).

데이터를 분석하기 전에 보유한 데이터 유형을 이해하십시오.

연속 또는 불연속 데이터가 있습니까? 데이터가 범주 형입니까 아니면 숫자입니까?

이러한 질문에 답한 후에는 더 깊이 들어갈 준비가 된 것입니다.

데이터에는 세 가지 주요 유형의 특성이 있습니다.

데이터는 단면이 될 수 있습니다. 이는 데이터가 패턴 또는 추세의 스냅 샷임을 의미합니다. 예를 들어 국가 인구 조사와 같은 설문 조사 결과가 있습니다.
데이터는 시계열 일 수 있습니다. 예를 들어 내 시험 점수, 일정 기간 동안 벌어 들인 임금 또는 회사가 연중 할인을 측정하고 적용하는 방법이 있습니다.
패널 데이터도 있습니다. 기업이 CRM에 저장할 수 있는 데이터를 예로 들 수 있습니다. 패널 데이터는 여러 주제와 여러 시점을 가능하게 합니다. 스토리지가 점점 저렴 해짐에 따라 이러한 형태의 데이터가 점점 더 보편화되고 있습니다.

이제 데이터 유형과 데이터의 주요 특성을 알았으므로 데이터 배포 방식에 대한 개요를 제공하고자 합니다.

분산 : 데이터 구성 방법

데이터의 형태를 살펴보면 고유 한 통찰력을 얻을 수 있습니다.

데이터는 중앙 경향을 통해 구성 될 수 있습니다.

이렇게 하려면 데이터 세트를 가장 작은 것에서 가장 큰 순서로 정렬하십시오.

데이터가 깔끔하게 정렬되면 처음으로 분산을 볼 수 있습니다.

데이터가 얼마나 분산되어 있는지 확인하면 가장 작은 값에서 가장 큰 값을 빼서 데이터 범위를 계산할 수 있습니다.

데이터의 범위 (최소값과 최대 값 사이의 거리)가 큰 경우 분산이 높다고 합니다.

마지막으로 사용 가능한 모든 데이터 또는 데이터 세트의 스냅 샷을 볼 수 있습니다. 평균, 중앙값 및 최빈값을 쉽게 계산할 수 있습니다.

다음 사고 실험에 대해 생각해보십시오. M & M 병에 손을 넣고 빨간색 하나를 꺼낸다면 무엇을 추론 할 수 있습니까?

많지 않을 것 같습니다. 신뢰 구간을 정의하여 이유를 설명하겠습니다.

.....