댓글 검색 목록

[기타] 데이터 과학 통계-ML 실무자를 위한 완벽한 가이드

페이지 정보

작성자 운영자 작성일 20-11-19 10:06 조회 742 댓글 0

이 초 연결 세계에서 데이터는 전례 없는 속도로 생성되고 소비되고 있습니다.


https://www.freecodecamp.org/news/statistics-for-data-science/


우리가 데이터의 초전도성을 누리는 만큼 남용도 유발합니다. 데이터 전문가는 통계적 방법을 사용하여 숫자를 해석 할 뿐만 아니라 그러한 남용을 발견하고 우리가 오도 되지 않도록 보호 할 수 있도록 교육을 받아야 합니다.


통계에 대해 공식적으로 훈련 된 데이터 과학자는 많지 않습니다. 데이터 과학 관점에서 이러한 통계적 방법을 가르치는 좋은 책과 코스도 거의 없습니다.


이 게시물을 통해 다음 사항에 대해 설명하겠습니다.


  • 통계란 무엇입니까?
  • 기계 학습과 관련된 통계.
  • 통계를 마스터해야 하는 이유
  • 이 주제를 마스터하기 위해 따라야 하는 커리큘럼
  • 응시자가 아닌 실무자가 되기 위해 통계를 공부하는 방법
  • 실용적인 팁 및 학습 리소스

통계 란 무엇입니까? 


통계는 데이터에 대한 중요한 질문에 답할 수 있는 일련의 수학적 방법 및 도구입니다. 두 가지 범주로 나뉩니다.


  1. 기술 통계-원시 관측치를 해석하고 공유하기 쉬운 의미 있는 정보로 변환하여 데이터를 요약하는 방법을 제공합니다.
  2. 추론 통계-작은 데이터 샘플에 대해 수행 된 실험을 연구하고 전체 모집단 (전체 영역)에 대한 추론을 작성하는 방법을 제공합니다.

이제 통계와 기계 학습은 밀접하게 관련된 두 가지 연구 분야입니다. 통계는 예측 모델을 선택, 평가 및 해석하는 데 도움이 되므로 응용 기계 학습의 중요한 전제 조건입니다.


통계 및 기계 학습 


기계 학습의 핵심은 통계를 중심으로 합니다. 통계적 기초를 잘 이해하지 못하면 기계 학습으로 실제 문제를 해결할 수 없습니다.


학습 통계를 어렵게 만드는 몇 가지 요인이 있습니다. 나는 수학 방정식, 그리스 표기법, 그리고 주제에 대한 관심을 발전시키기 어렵게 만드는 세 심하게 정의 된 개념에 대해 이야기하고 있습니다.


간단하고 명확한 설명, 적절하게 진행되는 자습서 및 실습 랩을 통해 이러한 문제를 해결하여 적용된 통계 방법으로 문제를 해결할 수 있습니다.


탐색 적 데이터 분석에서 가설 테스트 실험 설계에 이르기까지 통계는 모든 주요 산업 및 영역에서 문제를 해결하는 데 필수적인 역할을 합니다.


머신 러닝에 대한 깊은 이해를 원하는 사람은 통계적 방법이 회귀 알고리즘 및 분류 알고리즘의 기반을 형성하는 방법, 통계를 통해 데이터에서 학습하는 방법, 레이블이 없는 데이터에서 의미를 추출하는 데 도움이 되는 방법을 배워야 합니다.


통계를 마스터해야 하는 이유는 무엇입니까? 


모든 조직은 데이터 중심이 되기 위해 노력하고 있습니다. 이것이 우리가 데이터 과학자 및 분석가에 대한 수요의 증가를 목격하는 이유입니다.


이제 문제를 해결하고, 질문에 답하고, 전략을 세우려면 데이터를 이해해야 합니다. 운 좋게도 통계는 이러한 통찰력을 얻을 수 있는 도구 모음을 제공합니다.


데이터에서 지식으로 


별도로 원시 관찰은 데이터 일뿐입니다. 기술 통계를 사용하여 이러한 관찰을 이해하기 쉬운 통찰력으로 변환합니다.


그런 다음 추론 통계를 사용하여 작은 데이터 샘플을 연구하고 결과를 전체 모집단에 외삽 할 수 있습니다.


통계는 다음과 같은 질문에 답하는 데 도움이 됩니다. 


  • 가장 중요한 기능은 무엇입니까?
  • 제품 전략을 개발하기 위해 실험을 어떻게 설계해야 합니까?
  • 어떤 성능 지표를 측정해야 합니까?
  • 가장 일반적이고 예상되는 결과는 무엇입니까?
  • 노이즈와 유효한 데이터를 어떻게 구별합니까?

이 모든 것은 데이터 팀이 매일 답변해야 하는 공통적이고 중요한 질문입니다.


답변은 우리가 효과적으로 결정을 내리는 데 도움이 됩니다. 통계적 방법은 예측 모델링 프로젝트를 설정하는 데 도움이 될 뿐만 아니라 결과를 해석하는데도 도움이 됩니다.


통계 및 기계 학습 프로젝트 


거의 모든 기계 학습 프로젝트는 다음 작업으로 구성됩니다. 그리고 통계는 어떤 형태 나 형태로 그들 모두에서 중심적인 역할을 합니다. 방법은 다음과 같습니다.


문제 설명 정의 


예측 모델링의 가장 중요한 부분은 우리가 추구 할 실제 목표를 제공하는 문제의 실제 정의입니다.


이것은 우리가 다루는 문제의 유형 (즉, 회귀 또는 분류)을 결정하는 데 도움이 됩니다. 또한 목표와 관련하여 입력, 출력 및 메트릭의 구조와 유형을 결정하는 데 도움이 됩니다.


그러나 문제 구조가 항상 간단한 것은 아닙니다. 머신 러닝을 처음 사용하는 경우 도메인에서 관찰 한 내용에 대한 상당한 탐색이 필요할 수 있습니다. 여기서 마스터해야 할 두 가지 주요 개념은 탐색 적 데이터 분석 (EDA)과 데이터 마이닝 입니다.


초기 데이터 탐색 


데이터 탐색에는 데이터의 변수 분포와 변수 간의 관계에 대한 심층적인 이해가 포함됩니다.


부분적으로 도메인 전문 지식은 특정 유형의 변수에 대한 이러한 숙달을 얻는 데 도움이 됩니다. 그럼에도 불구하고 전문가와 현장에 새로 온 사람들은 실제로 도메인에서 실제 관찰을 처리함으로써 이익을 얻습니다.


통계의 중요한 관련 개념은 기술 통계 및 데이터 시각화 학습으로 요약됩니다.



데이터 정리 

종종 실험이나 데이터 저장소에서 수집 한 데이터 포인트는 깨끗하지 않습니다. 데이터가 무결성을 손상 시키는 프로세스 또는 조작을 받았을 수 있습니다. 이는 데이터를 사용하는 다운 스트림 프로세스 또는 모델에 추가로 영향을 미칩니다.


일반적인 예로는 누락 된 값, 데이터 손상, 데이터 오류 (불량 센서에서 발생) 및 형식화 되지 않은 데이터 (다른 배율로 관찰)가 있습니다.


정리 방법을 마스터하려면 이상 값 감지 및 결 측값 대치에 대해 알아야 합니다.


데이터 준비 및 변환 파이프 라인 설정 


데이터에 오류와 불일치가 포함 된 경우 모델링에 직접 사용할 수 없는 경우가 많습니다.


첫째, 데이터는 모양이나 구조를 변경하고 정의한 문제 또는 사용 중인 학습 알고리즘에 더 적합하도록 일련의 변환을 거쳐야 할 수 있습니다.


그런 다음 데이터에 적용하는 이러한 변환의 파이프 라인을 개발하여 모델에 대한 일관되고 호환 가능한 입력을 생성 할 수 있습니다.


데이터 샘플링 및 기능 선택 방법, 데이터 변환, 스케일링 및 인코딩과 같은 개념을 마스터해야 합니다.


모델 선택 및 평가 


예측 문제를 해결하는 핵심 단계는 학습 방법을 선택하고 평가하는 것입니다. 추정 통계는 보이지 않는 데이터에 대한 모델 예측의 점수를 매기는 데 도움이 됩니다.


실험 설계는 모델의 선택 및 평가 프로세스를 구동하는 통계의 하위 필드입니다. 통계 가설 검정 및 추정 통계에 대한 이해가 필요합니다.


모델 미세 조정 


거의 모든 기계 학습 알고리즘에는 선택한 문제 프레이밍에 대한 학습 방법을 사용자 지정할 수 있는 하이퍼 파라미터 제품군이 있습니다.


이 하이퍼 파라미터 조정은 분석적 이라기 보다는 본질적으로 경험적입니다. 모델 성능에 대한 다양한 하이퍼 파라미터 설정의 효과를 평가하려면 대규모 실험 세트가 필요합니다.


실무자를 위한 통계 커리큘럼 

실무자를 위한 좋은 통계 커리큘럼은 내가 방금 논의한 수많은 방법과 도구를 포함해서는 안됩니다. 또한 업계에서 가장 일반적으로 직면하는 문제를 다루고 탐색해야 합니다.


다음은 데이터 과학 및 ML 인터뷰를 수행하고 현장에서 일하기 위해 알아야 하는 널리 사용되는 기술 목록입니다.


일반 통계 기술 


  • 효과적인 의사 결정을 위해 통계적으로 답변 가능한 질문을 정의하는 방법.
  • 일반적인 통계를 계산하고 해석하고 표준 데이터 시각화 기술을 사용하여 결과를 전달하는 방법.
  • 수학적 통계가 분야에 어떻게 적용되는지 이해, 중심 극한 정리와 같은 개념, 대수의 법칙.
  • 위치 및 변동성 (ANOVA) 추정치에서 추론합니다.
  • 목표 변수와 독립 변수 사이의 관계를 식별하는 방법.
  • 통계 가설 테스트 실험, A / B 테스트 등을 설계하는 방법.
  • p- 값, 알파, 유형 1 및 유형 2 오류 등과 같은 성능 측정 항목을 계산하고 해석하는 방법.


중요한 통계 개념 


  • 시작하기-데이터 유형 (직사각형 및 비 직사각형), 위치 추정, 가변성 추정, 데이터 분포, 이진 및 범주 데이터, 상관 관계, 다양한 유형의 변수 간의 관계 이해.
  • 통계 분포 — 난수, 큰 수의 법칙, 중앙 한계 정리, 표준 오차 등.
  • 데이터 샘플링 및 분포 — 랜덤 샘플링, 샘플링 편향, 선택 편향, 샘플링 분포, 부트 스트랩, 신뢰 구간, 정규 분포, t- 분포, 이항 분포, 카이 제곱 분포, F- 분포, 포아송 및 지수 분포.
  • 통계적 실험 및 유의성 테스트-A / B 테스트, 가설 테스트 수행 (Null / Alternate), 리샘플링, 통계적 유의성, 신뢰 구간, p- 값, 알파, t- 테스트, 자유도, ANOVA, 임계 값, 공분산 및 상관 관계 , 효과 크기, 통계적 파워.
  • 비모수 적 통계 방법 — 순위 데이터, 정규성 테스트, 데이터 정규화, 순위 상관, 순위 유의성 테스트, 독립 테스트

실용적인 학습 팁 


대부분의 대학은 학생의 학습 능력을 테스트하기 위해 통계 과정 커리큘럼을 설계했습니다. 학생들이 실제 문제를 해결하기 위해 이러한 방법을 적용하는 데 초점을 맞추지 않고 방정식을 풀고, 용어를 정의하고, 방정식을 도출하는 플롯을 식별 할 수 있는지 확인합니다.


그러나 야심 찬 실무자는 실행 가능한 Python 코드를 사용하여 다양한 문제에 대한 통계 방법을 학습하고 구현하는 단계별 프로세스를 따라야 합니다.


통계 연구에 대한 두 가지 주요 접근 방식을 좀 더 자세히 살펴 보겠습니다.


하향식 접근 방식 


제품 기능의 두 가지 버전의 효율성을 테스트하기 위한 실험을 설계하라는 요청을 받았다고 가정 해 보겠습니다. 이 기능은 온라인 포털에서 사용자 참여를 높이기 위한 것입니다.


하향식 접근 방식을 사용하면 먼저 문제에 대해 자세히 알아볼 수 있습니다. 그런 다음 목표가 명확 해지면 적절한 통계 방법을 적용하는 방법을 배울 수 있습니다.


이는 참여를 유지하고 더 나은 실용적인 학습 경험을 제공합니다.


상향식 접근 방식 


이 접근 방식은 대부분의 대학과 온라인 과정에서 통계를 가르치는 방법입니다. 수학적 표기법으로 이론적 개념, 그 개념의 역사 및 구현 방법을 배우는 데 중점을 둡니다.


저처럼 이론적 학습에 대한 관심을 잃는 경향이 있는 사람들에게 이것은 응용 통계를 배우는 올바른 방법이 아닙니다. 그것은 너무 메타로 만들어 문제 해결에 직접적인 연결 없이 주제를 건조하고 우울하게 만듭니다.


아시다시피, 저는 통계 연구에 대해 하향식 접근 방식을 권장합니다.


이제 올바른 경로를 시작하는 데 권장되는 몇 가지 특정 리소스를 살펴 보겠습니다.


학습 자료 


  • 실용 통계에 관한 책 – 이것은 데이터 과학 관점에서 통계를 가르칠 것입니다. 이 책의 처음 3 장 이상을 읽어야 합니다.

1.png 



  • 통계 및 확률 | 칸 아카데미 –이 과정은 인터뷰 중에 모든 통계 및 확률 관련 질문에 대해 잘 준비 할 것입니다. 비디오 강의 및 연습 문제를 잘 편집 한 무료 코스입니다.

2.png 


  • Naked Statistics – 수학을 두려워하고 실제 사례를 이해하는 것을 선호하는 사람들을 위한 이 책은 통계가 실제 시나리오에서 어떻게 적용되는지 설명하는 놀라운 책입니다.

3.png 


기계 학습을 위한 통계적 방법 –이 책은 기계 학습 실무자를 위한 통계적 방법의 단기 강의 역할을 합니다. 이상적으로는 개발자로서의 배경 지식이 있는 사람들입니다.


Screenshot-from-2020-11-03-22-39-45.png 


다음… 


이러한 개념의 의미와 적용을 이해하고 시각화 할 수 있도록 코드 우선 접근 방식에 따라 위에서 언급 한 각 주제에 대한 일련의 자습서를 만들 것입니다.


세부 정보를 놓친 것이 있거나 통계의 다른 측면을 다루고 싶다면 이 이야기에 응답 해 주시면 커리큘럼에 추가하겠습니다.


이 채널을 통해 전체 데이터 과학 공간을 다루는 몇 가지 시리즈를 출시 할 계획입니다. 채널을 구독해야 하는 이유는 다음과 같습니다.


  • 이 시리즈는 데이터 과학을 위한 Python 기초와 같은 각 주제 및 하위 주제에 대한 모든 필수 / 요구 품질 자습서를 다룹니다.
  • ML 및 딥 러닝에서 수행하는 작업을 수행하는 이유에 대한 수학과 파생을 설명했습니다.
  • Google, Microsoft, Amazon 등의 데이터 과학자 및 엔지니어와 빅 데이터 기반 기업의 CEO가 참여하는 팟 캐스트입니다.
  • 지금까지 배운 주제를 구현하기 위한 프로젝트 및 지침. 새로운 인증, Bootcamp 및 Google에서 제공하는 TensorFlow 개발자 인증 시험과 같은 인증을 해독하기 위한 리소스에 대해 알아보세요.


댓글목록 0

등록된 댓글이 없습니다.

웹학교 로고

온라인 코딩학교

코리아뉴스 2001 - , All right reserved.