통계학은 데이터를 과학적인 방법으로 분석해 현상을 설명하고 예측하는 학문이다. 데이터 분석 방법론은 통계학과 이론적으로 밀접해서 분석의 원리를 이해하고 데이터를 깊이 있게 분석하려면 통계지식을 갖추야 한다. 출처조성준, 빅데이터 커리어 가이드북 중
6장 피지엠파이(pgmpy)로 공부하는 확률론이 장에서는 확률론의 기초를 공부한다. 먼저 확률을 수학적으로 정의하는 방법을 공부하는데 이를 위해 집합론 기초를 복습한다. 다음으로 확률이 가진 성질을 살펴본다. 실제 확률의 모습을 묘사하기 위해서는 확률분포함수를 사용하는
7장 확률변수와 상관관계6장에서는 확률을 어떻게 정의하는지 살펴보았다. 이 장에서는 실제 데이터값이 어떻게 나올지 묘사하는 데 확률을 사용하는 방법을 알아본다. 확률변수는 특정 데이터의 값을 대표하는 확률모형이다. 먼저 확률변수의 기댓값, 분산, 표준편차 등의 수학적
8장 사이파이로 공부하는 확률분포이 장에서는 실제로 많이 사용되는 대표적인 몇 가지 확률분포의 수식과 활용을 알아본다. 우선 사이파이 파이썬 패키지를 사용하여 다양한 확률분포의 확률분포함수를 계산하고 해당 확률분포의 무작위 표본을 생성하는 방법을 알아본다.확률분포에는
9장 추정과 검정이 장은 데이터 분석에서 가장 중요한 내용인 추정과 검정을 다룬다. 지금까지의 모든 수학은 추정과 검정을 하려는 기반을 쌓은 것이라고 볼 수 있다. 추정은 데이터로부터 확률분포를 찾아내는 역설계 과정이다. 추정을 통해 데이터는 확률변수로 거듭나게 된다.