[Statistics]Degrees of Freedom(자유도)

ssh00n·2023년 4월 21일

목록 보기

2/2

Degrees of freedom : the number of independent values (pieces of information), which were included into calculation of an estimate

→ 자유도의 정의는 estimate(추정량, ex. $\hat{\mu} = \bar{X}$ )의 계산에 포함되는 독립적인 값들의 수

추가적인 예를 들자면, 우리가 정규분포의 모수인 $\mu, \sigma^2$ 를 계산하기 위해서, 이에 대한 estimate로써 $\bar{X}, s^2$ 를 사용한다.

Q. 위에서 사용된 개념들이 도대체 무엇을 의미하는가?

estimate : 추정량

모집단의 표본에서 나온 표본 통계량 (ex. mean, median, variance)
우리는 이 estimate를 얻기 위해서, 해당 estimate를 얻는 식을 계산해야 한다. $\bar{X} = \frac{1}{n}\sum{x_i}$
- 이러한 식을 계산하는 데 독립적인 값(또는 관측치)들이 존재한다.

independent values

우리가 익히 알고 있는 standard deviation(표준 오차)를 계산하는 식으로 설명해보자면,
우리는 standard deviation를 계산하기 위해서 n - 1의 자유도를 가진다.

$s = \sqrt{\frac{\sum(x-\bar{x})^2}{n-1}}$

위 식을 계산할 때, 이미 우리는 $\bar{x}$ 를 알고 있다.

$\bar{x} = \frac{1}{n}\sum x_i$

따라서 s를 계산하는 과정에서, n개의 $x_i$ 중, n-1개의 $x_i$ 만 있으면 되는데, 그 이유는 위의 $\bar{x}$ 식을 통해서 나머지 $x_i$ 를 계산할 수 있기 때문이다.

$x_{last} = \bar{x} * n - (x_1, ... , x_{n-1})$

위와 같은 식으로 계산할 수 있다. 그래서 standard deviation을 계산하는데 n-1개의 자유도를 가진다.(즉 독립적인 값들의 수가 n-1개가 된다.)

Q. 그런데 왜 n(the number of observations)으로 나누지 않고 degrees of freedom으로 나누는가?

→ estimate(추정량)를 계산할 때, 자유도를 사용하지 않고 n으로 나눈다면 더 큰 분모를 가지기 때문에 해당 estimate의 크기는 좀 더 작아진다.
만약 우리가 위 s를 n으로 나누어 계산한다면

1) divide by n

$s = \sqrt{\frac{\sum{(x-\bar{x})^2}}{n}}$

2) divide by degrees of freedom

$s = \sqrt{\frac{\sum{(x-\bar{x})^2}}{n-1}}$

(1) < (2)

우리는 크기가 더 작은 표준 오차를 갖게 되지만, 사실상 $x_i$ 의 마지막 원소는 redundant한 원소이므로, standard deviation을 계산하는데 어떠한 기여도 하지 않는다.

그래서 우리는 이 마지막 원소를 제외하지 않고 계산한다면, standard deviation을 underestimate하게 됨

위와 같은 이유로 우리는 추정량을 계산할 때 관측치의 수(n)이 아닌, 자유도를 사용한다.

물론 이러한 계산은 sample을 이용할 때만 이루어지는 것이고, 모집단 전체에 대한 정보가 있다면 n을 이용하면 된다. (모집단의 정보를 이용하여 계산하면 모집단 자체를 describe하기 때문에 underestimate 하지 않게 된다)

참조 페이지

Whatever I want

Statistics