MLDL - (5) : 자유도

이승환·2022년 1월 19일

MLDL

목록 보기

5/5

분산과 표준편차를 구할 때, N이 아닌 N-1 로 나누는 이유는?

우선, 모집단과 표본집단의 특징에 대해 알아야 한다. 전 세계 총인구의 IQ에 대해 모 분산을 측정했다고 하자. 전 세계 인원 80억 명 모두를 하나하나 IQ 테스트해서 모 분산을 구했다. 이는 실제 모집단 전체의 분산이다. 이제, 어떤 대학생 한 명이 전 세계 총인구의 표본 분산을 구한다고 가정해보자. (여기서 모분산은 모집단(전 세계 인구 전체)의 실제 분산 값, 표본 분산을 샘플링한 표본의 분산 값을 뜻한다.) 80억 명 모두 조사할 수 없으므로 8천 명을 샘플로 추출한다. 8천 명을 샘플링하면 어떤 일이 일어날까?

전 세계 인구의 IQ는 정규분포를 그릴 것이다. 80억 명 중 8천 명을 샘플링하면 상대적으로 중앙값 부근에서 표본이 많이 생긴다. 당연히 중앙값 부근의 값이 많기 때문일 것이다. 그렇게 되면 표본의 흩어짐 정도(분산)가 모집단의 흩어짐 정도보다 덜하다. 즉, 표본 분산은 모 분산보다 작은 경향이 있다. 모 분산보다 작아지려는 경향을 가진 표본 분산을 보존해줘야 한다. n으로 나눈 표본 분산보다 n-1로 나눈 표본 분산 값이 더 클 것이다. 이런 식으로 표본 분산의 작아지려는 경향을 자유도로 보존할 수 있다.

이승환

Mechanical & Computer Science

이전 포스트

MLDL - (5) : 자유도

MLDL

분산과 표준편차를 구할 때, N이 아닌 N-1 로 나누는 이유는?

MLDL - (4) : Entropy & Cross Entropy & KL-divergence

0개의 댓글