표본이라 불리느 일부 자료를 수집해 전체 모집합에 대한 결론을 유추
추론은 가설 검정, 수치의 특징 계산, 데이터 간의 상관관계 등을 통해 이루어짐
데이터에 통계학을 적용해 변수의 유익성을 분석함으로써 데이터의 숨겨진 특성을 찾아재는 것을 통계 모델링이라고 함.
*모집단 대상이냐 표본 대상이냐에 따라 통계 모델링 기법이 달라짐
import numpy as np
from scipy import stats
np.random.seed(0)
data = np.random.randint(0, 100, 10000)
mean = np.mean(data); print("평균값: ", mean.round(2))
median = np.median(data); print("중앙값: ", median)
mode = stats.mode(data); print("최빈값: {} ({})".format(mode[0][0], mode[1][0]))
평균값: 49.7
중앙값: 49.0
최빈값: 3 (125)
*표준편차는 합리적인 크기로 작아져 중요한 개념이 됨
import numpy as np
from statistics import variance, stdev
np.random.seed(0)
points = np.random(0, 100, 20)
var = variance(points); print("분산: ", var)
std = stdev(points) - np.min(points); print("범위: ", range)
range = np.max(points) - np.min(points); print("범위: ", range)
print("사분위수:")
for val in [0, 25, 50, 75, 100]:
quantile = np.percentile(points, val)
print("{}% => {}".format(val, quantile))
q1, q3 = np.percentile(points, [25, 75])
print("IQR: ", q3 - q1)
분산: 662
표준편차: 25.73
범위: 79
사분위수:
0% => 9.0
25% => 42.75
50% => 64.5
75% => 84.0
100% => 88.0
IQR: 41.25