Bias-Variance Decomposition

구국원·2020년 7월 28일

머신러닝의 학습의 판단 기준이 되는 error를 bias, variance, irreducible error의 관점에서 분해해보고 좋은 품질의 데이터가 필요한 이유와 bias 및 variance의 trade-off가 발생할 수밖에 없는 이유를 알아보겠습니다.

1 Prerequsite to start with

우리는 궁극적으로 모집단의 데이터에 적합시킨(fit) regressor를 추정하고자 합니다.
$Y=f(X)+\epsilon$
$\epsilon$ (random gaussian noise)은 평균 0, 분산 $\sigma^2$ 인 가우시안 분포
$E(\epsilon) = 0$ $Var(\epsilon)=\sigma^2$
모집단의 분포에서 크기(size) T만큼의 표본을 무한번 복원 추출을 하여 표본 $X^{(i)}$ , $Y^{(i)}$ 를 뽑습니다.
$\begin{aligned} X_{i} &= (x^{(i)}_{1}, \space x^{(i)}_{2}, \space ..., \space x^{(i)}_{T})\\ Y_{i} &= (y^{(i)}_{1}, \space y^{(i)}_{2}, \space ..., \space y^{(i)}_{T}) \end{aligned}$
각 표본으로 각자의 데이터를 통해 regressor를 fitting 하여 class of models인 estimator를 구합니다.
$estimator = \hat{f}(X|\theta)$
estimator의 각 model은 자신들이 적합된 표본 데이터에 따라 각기 다른 $\theta$ 값을 가지게 됩니다. 따라서 이후에 살펴볼 bias 수식에 기대값이 있게 됩니다.
이후의 수식은 training시 활용한 표본 데이터가 아니라 모집단 분포에서 새로 추출한 test data에 대한 수식임을 반드시 명심합시다!!(train data와 test data는 결국 같은 분포에 샘플링 된 것임)

먼저, 수식의 단순화를 위해 estimator를 $\hat{f}(X|\theta))$ 에서 $\theta$ 를 삭제한 $\hat{f}(X)$ 로 표기하겠습니다.

\begin{aligned} MSE(\hat{f}(X)) &= E[(Y-\hat{f}(X))^2] \qquad (1)\\ &= E[(f(X) + \epsilon - \hat{f}(X))^2] \qquad (2) \\ &= E[(f(X) - \hat{f}(X)) + \epsilon)^2] \qquad (3)\\ &= E[(f(X)-\hat{f}(X))^2 + \epsilon^2 + 2(f(X)-\hat{f}(X))\epsilon] \qquad (4)\\ &= E[(f(X)-\hat{f}(X))^2] + E[\epsilon^2] + E[2(f(X)-\hat{f}(X))\epsilon] \qquad (5)\\ &= E[(f(X)-\hat{f}(X))^2] + E[\epsilon^2] + E[2(f(X)-\hat{f}(X))]E[\epsilon] \qquad (6)\\ &= E[(f(X)-\hat{f}(X))^2] + E[\epsilon^2] \qquad (7) \\ \end{aligned}

$(2)$ 는 $Y=f(X)+\epsilon$ 으로 도출됩니다.
$(3), (4)$ 는 square expansion인 $(a+b)^2 = a^2+b^2+2ab$ 를 통해 도출됩니다.
$(5)$ 는 기대값의 linear property를 이용한 것입니다.
$(6)$ 은 확률변수 $\epsilon$ 와 $\hat{f}$ 의 독립성을 이용한 것입니다. 두 확률변수가 독립일 때, 두 확률변수의 곱의 기대값은 각각의 기대값의 곱으로 분리될 수 있다는 사실을 떠올린다면 쉽게 도출할 수 있습니다. 다음으로 위 단락에서 도출한 마지막 항을 이어서 전개해 보겠습니다.

\begin{aligned} MSE(\hat{f}(X)) &= E[(f(X)−E[\hat{f}(X)]+E[\hat{f}(X)]− \hat{f}(X))^2] + E[\epsilon^2] \qquad (8) \\ &= E[(f(X)−E[\hat{f}(X)])+(E[\hat{f}(X)]− \hat{f}(X)))^2] + E[\epsilon^2] \qquad (9) \\ &= E[(f(X)−E[\hat{f}(X)])^2+(E[\hat{f}(X)]− \hat{f}(X))^2 + 2(f(X)−E[\hat{f}(X)])(E[\hat{f}(X)]− \hat{f}(X))] + E[\epsilon^2] \qquad (10) \\ &= E[(f(X)−E[\hat{f}(X)])^2]+E[(E[\hat{f}(X)]− \hat{f}(X))^2] + E[2(f(X)−E[\hat{f}(X)])(E[\hat{f}(X)]− \hat{f}(X))] + E[\epsilon^2] \qquad (11) \\ &= (f(X)−E[\hat{f}(X)])^2+E[(E[\hat{f}(X)]− \hat{f}(X))^2] + E[2(f(X)−E[\hat{f}(X)])(E[\hat{f}(X)]− \hat{f}(X))] + E[\epsilon^2] \qquad (12) \\ &= (f(X)−E[\hat{f}(X)])^2+E[(E[\hat{f}(X)]− \hat{f}(X))^2] + 2(f(X)−E[\hat{f}(X)])(E[E[\hat{f}(X)]− \hat{f}(X)]) + E[\epsilon^2] \qquad (13) \\ &= (f(X)−E[\hat{f}(X)])^2+E[(E[\hat{f}(X)]− \hat{f}(X))^2] + 2(f(X)−E[\hat{f}(X)])(E[\hat{f}(X)]− E[\hat{f}(X)]) + E[\epsilon^2] \qquad (14) \\ &= (f(X)−E[\hat{f}(X)])^2+E[(E[\hat{f}(X)]− \hat{f}(X))^2] + E[\epsilon^2] \qquad (15) \\ &= (f(X)−E[\hat{f}(X)])^2+E[(E[\hat{f}(X)]− \hat{f}(X))^2] + E[(\epsilon − 0)^2] \qquad (16) \\ &= (f(X)−E[\hat{f}(X)])^2+E[(E[\hat{f}(X)]− \hat{f}(X))^2] + E[(\epsilon − E[\epsilon])^2] \qquad (17) \\ &= Bias[\hat{f}(X)]^2 + Var[\hat{f}(X)] + \sigma^{2}_{\epsilon} \qquad (18) \end{aligned}

$(8)$ 은 식의 편리한 유도를 위해 $E[\hat{f}(X)]$ 를 빼고 더한 것입니다. 원래의 식과 완벽하게 동일합니다.
$(9), (10)$ 은 또 다시 square expansion을 활용하였습니다.
$(11)$ 은 기대값의 linear property를 활용한 것입니다.
$(12)$ 는 $E[c] = c$ ( $c$ is not r.v but constant)를 활용한 것입니다. 모수인 $f(X)$ 는 정해진 상수이며, 확률변수 $\hat{f}(X)$ 의 기대값인 $E[\hat{f}(X)]$ 는 상수입니다. $\hat{f}(X)$ 의 값은 $X$ 의 realization(observation)에 따라서 그 값이 변하는 확률변수이지만, 해당 확률변수의 기대값은 고정된 상수임을 반드시 기억해야하겠습니다.
$(13)$ 은 $(12)$ 와 같은 이유로 기대값 formula에서 상수항을 밖으로 꺼낸 것입니다.
$(14)$ 는 $E[E[X]] = E[X]$ 성질과 linear 성질을 활용하였습니다. 그 결과 3번째 항의 경우 값이 $0$ 이 됩니다.
$(15), (16), (17)$ 은 $E[\epsilon] = 0$ 을 이용해 유도하였습니다. 또한 분산의 공식에 의해 마지막 항을 $\sigma^{2}_{\epsilon}$ 으로 치환할 수 있습니다.

결과적으로 추정식의 오차는 $Bias^2$ , $Variance$ , $irreducible \space error$ 로 decomposition되는 것을 확인할 수 있습니다. irreducible error는 절대로 줄일 수 없는 내재적인 오류를 뜻합니다.

decomposition을 통해 이끌어 낸 bias의 의미

decomposition을 통해 이끌어낸 variance의 의미

코드를 통해서 시각화

통계학과 머신러닝에서의 bias 및 variance의 차이

All About Data Science