이 초 연결 세계에서 데이터는 전례 없는 속도로 생성되고 소비되고 있습니다.
https://www.freecodecamp.org/news/statistics-for-data-science/
우리가 데이터의 초전도성을 누리는 만큼 남용도 유발합니다. 데이터 전문가는 통계적 방법을 사용하여 숫자를 해석 할 뿐만 아니라 그러한 남용을 발견하고 우리가 오도 되지 않도록 보호 할 수 있도록 교육을 받아야 합니다.
통계에 대해 공식적으로 훈련 된 데이터 과학자는 많지 않습니다. 데이터 과학 관점에서 이러한 통계적 방법을 가르치는 좋은 책과 코스도 거의 없습니다.
이 게시물을 통해 다음 사항에 대해 설명하겠습니다.
통계 란 무엇입니까?
통계는 데이터에 대한 중요한 질문에 답할 수 있는 일련의 수학적 방법 및 도구입니다. 두 가지 범주로 나뉩니다.
이제 통계와 기계 학습은 밀접하게 관련된 두 가지 연구 분야입니다. 통계는 예측 모델을 선택, 평가 및 해석하는 데 도움이 되므로 응용 기계 학습의 중요한 전제 조건입니다.
통계 및 기계 학습
기계 학습의 핵심은 통계를 중심으로 합니다. 통계적 기초를 잘 이해하지 못하면 기계 학습으로 실제 문제를 해결할 수 없습니다.
학습 통계를 어렵게 만드는 몇 가지 요인이 있습니다. 나는 수학 방정식, 그리스 표기법, 그리고 주제에 대한 관심을 발전시키기 어렵게 만드는 세 심하게 정의 된 개념에 대해 이야기하고 있습니다.
간단하고 명확한 설명, 적절하게 진행되는 자습서 및 실습 랩을 통해 이러한 문제를 해결하여 적용된 통계 방법으로 문제를 해결할 수 있습니다.
탐색 적 데이터 분석에서 가설 테스트 실험 설계에 이르기까지 통계는 모든 주요 산업 및 영역에서 문제를 해결하는 데 필수적인 역할을 합니다.
머신 러닝에 대한 깊은 이해를 원하는 사람은 통계적 방법이 회귀 알고리즘 및 분류 알고리즘의 기반을 형성하는 방법, 통계를 통해 데이터에서 학습하는 방법, 레이블이 없는 데이터에서 의미를 추출하는 데 도움이 되는 방법을 배워야 합니다.
통계를 마스터해야 하는 이유는 무엇입니까?
모든 조직은 데이터 중심이 되기 위해 노력하고 있습니다. 이것이 우리가 데이터 과학자 및 분석가에 대한 수요의 증가를 목격하는 이유입니다.
이제 문제를 해결하고, 질문에 답하고, 전략을 세우려면 데이터를 이해해야 합니다. 운 좋게도 통계는 이러한 통찰력을 얻을 수 있는 도구 모음을 제공합니다.
데이터에서 지식으로
별도로 원시 관찰은 데이터 일뿐입니다. 기술 통계를 사용하여 이러한 관찰을 이해하기 쉬운 통찰력으로 변환합니다.
그런 다음 추론 통계를 사용하여 작은 데이터 샘플을 연구하고 결과를 전체 모집단에 외삽 할 수 있습니다.
통계는 다음과 같은 질문에 답하는 데 도움이 됩니다.
이 모든 것은 데이터 팀이 매일 답변해야 하는 공통적이고 중요한 질문입니다.
답변은 우리가 효과적으로 결정을 내리는 데 도움이 됩니다. 통계적 방법은 예측 모델링 프로젝트를 설정하는 데 도움이 될 뿐만 아니라 결과를 해석하는데도 도움이 됩니다.
통계 및 기계 학습 프로젝트
거의 모든 기계 학습 프로젝트는 다음 작업으로 구성됩니다. 그리고 통계는 어떤 형태 나 형태로 그들 모두에서 중심적인 역할을 합니다. 방법은 다음과 같습니다.
문제 설명 정의
예측 모델링의 가장 중요한 부분은 우리가 추구 할 실제 목표를 제공하는 문제의 실제 정의입니다.
이것은 우리가 다루는 문제의 유형 (즉, 회귀 또는 분류)을 결정하는 데 도움이 됩니다. 또한 목표와 관련하여 입력, 출력 및 메트릭의 구조와 유형을 결정하는 데 도움이 됩니다.
그러나 문제 구조가 항상 간단한 것은 아닙니다. 머신 러닝을 처음 사용하는 경우 도메인에서 관찰 한 내용에 대한 상당한 탐색이 필요할 수 있습니다. 여기서 마스터해야 할 두 가지 주요 개념은 탐색 적 데이터 분석 (EDA)과 데이터 마이닝 입니다.
초기 데이터 탐색
데이터 탐색에는 데이터의 변수 분포와 변수 간의 관계에 대한 심층적인 이해가 포함됩니다.
부분적으로 도메인 전문 지식은 특정 유형의 변수에 대한 이러한 숙달을 얻는 데 도움이 됩니다. 그럼에도 불구하고 전문가와 현장에 새로 온 사람들은 실제로 도메인에서 실제 관찰을 처리함으로써 이익을 얻습니다.
통계의 중요한 관련 개념은 기술 통계 및 데이터 시각화 학습으로 요약됩니다.
데이터 정리
종종 실험이나 데이터 저장소에서 수집 한 데이터 포인트는 깨끗하지 않습니다. 데이터가 무결성을 손상 시키는 프로세스 또는 조작을 받았을 수 있습니다. 이는 데이터를 사용하는 다운 스트림 프로세스 또는 모델에 추가로 영향을 미칩니다.
일반적인 예로는 누락 된 값, 데이터 손상, 데이터 오류 (불량 센서에서 발생) 및 형식화 되지 않은 데이터 (다른 배율로 관찰)가 있습니다.
정리 방법을 마스터하려면 이상 값 감지 및 결 측값 대치에 대해 알아야 합니다.
데이터 준비 및 변환 파이프 라인 설정
데이터에 오류와 불일치가 포함 된 경우 모델링에 직접 사용할 수 없는 경우가 많습니다.
첫째, 데이터는 모양이나 구조를 변경하고 정의한 문제 또는 사용 중인 학습 알고리즘에 더 적합하도록 일련의 변환을 거쳐야 할 수 있습니다.
그런 다음 데이터에 적용하는 이러한 변환의 파이프 라인을 개발하여 모델에 대한 일관되고 호환 가능한 입력을 생성 할 수 있습니다.
데이터 샘플링 및 기능 선택 방법, 데이터 변환, 스케일링 및 인코딩과 같은 개념을 마스터해야 합니다.
모델 선택 및 평가
예측 문제를 해결하는 핵심 단계는 학습 방법을 선택하고 평가하는 것입니다. 추정 통계는 보이지 않는 데이터에 대한 모델 예측의 점수를 매기는 데 도움이 됩니다.
실험 설계는 모델의 선택 및 평가 프로세스를 구동하는 통계의 하위 필드입니다. 통계 가설 검정 및 추정 통계에 대한 이해가 필요합니다.
모델 미세 조정
거의 모든 기계 학습 알고리즘에는 선택한 문제 프레이밍에 대한 학습 방법을 사용자 지정할 수 있는 하이퍼 파라미터 제품군이 있습니다.
이 하이퍼 파라미터 조정은 분석적 이라기 보다는 본질적으로 경험적입니다. 모델 성능에 대한 다양한 하이퍼 파라미터 설정의 효과를 평가하려면 대규모 실험 세트가 필요합니다.
실무자를 위한 통계 커리큘럼
실무자를 위한 좋은 통계 커리큘럼은 내가 방금 논의한 수많은 방법과 도구를 포함해서는 안됩니다. 또한 업계에서 가장 일반적으로 직면하는 문제를 다루고 탐색해야 합니다.
다음은 데이터 과학 및 ML 인터뷰를 수행하고 현장에서 일하기 위해 알아야 하는 널리 사용되는 기술 목록입니다.
일반 통계 기술
중요한 통계 개념
실용적인 학습 팁
대부분의 대학은 학생의 학습 능력을 테스트하기 위해 통계 과정 커리큘럼을 설계했습니다. 학생들이 실제 문제를 해결하기 위해 이러한 방법을 적용하는 데 초점을 맞추지 않고 방정식을 풀고, 용어를 정의하고, 방정식을 도출하는 플롯을 식별 할 수 있는지 확인합니다.
그러나 야심 찬 실무자는 실행 가능한 Python 코드를 사용하여 다양한 문제에 대한 통계 방법을 학습하고 구현하는 단계별 프로세스를 따라야 합니다.
통계 연구에 대한 두 가지 주요 접근 방식을 좀 더 자세히 살펴 보겠습니다.
하향식 접근 방식
제품 기능의 두 가지 버전의 효율성을 테스트하기 위한 실험을 설계하라는 요청을 받았다고 가정 해 보겠습니다. 이 기능은 온라인 포털에서 사용자 참여를 높이기 위한 것입니다.
하향식 접근 방식을 사용하면 먼저 문제에 대해 자세히 알아볼 수 있습니다. 그런 다음 목표가 명확 해지면 적절한 통계 방법을 적용하는 방법을 배울 수 있습니다.
이는 참여를 유지하고 더 나은 실용적인 학습 경험을 제공합니다.
상향식 접근 방식
이 접근 방식은 대부분의 대학과 온라인 과정에서 통계를 가르치는 방법입니다. 수학적 표기법으로 이론적 개념, 그 개념의 역사 및 구현 방법을 배우는 데 중점을 둡니다.
저처럼 이론적 학습에 대한 관심을 잃는 경향이 있는 사람들에게 이것은 응용 통계를 배우는 올바른 방법이 아닙니다. 그것은 너무 메타로 만들어 문제 해결에 직접적인 연결 없이 주제를 건조하고 우울하게 만듭니다.
아시다시피, 저는 통계 연구에 대해 하향식 접근 방식을 권장합니다.
이제 올바른 경로를 시작하는 데 권장되는 몇 가지 특정 리소스를 살펴 보겠습니다.
학습 자료
기계 학습을 위한 통계적 방법 –이 책은 기계 학습 실무자를 위한 통계적 방법의 단기 강의 역할을 합니다. 이상적으로는 개발자로서의 배경 지식이 있는 사람들입니다.
다음…
이러한 개념의 의미와 적용을 이해하고 시각화 할 수 있도록 코드 우선 접근 방식에 따라 위에서 언급 한 각 주제에 대한 일련의 자습서를 만들 것입니다.
세부 정보를 놓친 것이 있거나 통계의 다른 측면을 다루고 싶다면 이 이야기에 응답 해 주시면 커리큘럼에 추가하겠습니다.
이 채널을 통해 전체 데이터 과학 공간을 다루는 몇 가지 시리즈를 출시 할 계획입니다. 채널을 구독해야 하는 이유는 다음과 같습니다.
등록된 댓글이 없습니다.