[데이터분석] 부분최소제곱법

박서현·2021년 8월 5일

데이터분석

목록 보기

4/4

부분최소제곱법이란

다중공선성 문제를 해결하기 위한 회귀 방법 중 하나로, 독립변수(X)의 선형결합과 종속변수(Y)의 공분산을 최대화하는 변수를 활용하여 회귀식을 찾아내는 방법이다.
독립변수(X)의 선형결합의 분산을 최대화하는 변수를 활용하는 주성분회귀와 차이가 있으나, 두 방법 모두 변수의 개수를 줄일 수 있고, 다중공산성 문제를 해결할 수 있다는 점에서 공통점이 있다.

부분최소제곱법의 수학적 원리

X를 독립변수, Y를 종속변수, t를 X의 선형조합, w를 선형조합의 가중치라 하자.

t = Xw

cov(t, Y) = {cov(t, Y)\over \sqrt{var(t)}\sqrt{var(Y)}}\sqrt{var(t)}\sqrt{var(Y)}

= corr(t, Y)\sqrt{var(t)}\sqrt{var(Y)}

따라서 t와 Y의 공분산을 최대화하려면, t와 Y의 상관계수와 t의 분산을 최대화 해야한다.

그렇다면, t와 Y의 공분산을 최대화하는 가중치 w는 어떻게 구할 수 있을까?

cov(t, Y) = cov(Xw, Y)

= E[(Xw - E[Xw])(Y - E[Y])] = E[(Xw)(Y)]

표준화된 데이터를 사용하기 때문에 E[Xw], E[Y]는 모두 0이 된다.

E[(Xw)(Y)] = {1\over n}\sum_{i=1}^{n}(Xw)_iY_i

= {1\over n}(Xw)^TY = {1\over n}w^T(X^TY)

∴ \space cov(t, Y) = {1\over n}w^T(X^TY)

여기서 $w^T(X^TY)$ 는 w와 $X^TY$ 의 내적으로 볼 수 있으므로, 아래 식이 성립한다.

w^T(X^TY) = ‖w‖‖X^TY‖cosθ\space

👉 θ가 0일 때 최대가 되며, 그 때 w와 $X^TY$ 의 방향은 같다.

∴ \space w = X^TY

부분최소제곱법의 순서

데이터 표준화
첫번째 PLS 변수( $t_1$ ) 추출
2-1. 첫번째 X, Y 설정
      $X_1 = X,\space Y_1 = Y$
2-2. 공분산이 최대가 되도록하는 가중치 $w_1$ 계산
      $w_1 = {X_1^TY_1\over ‖X_1^TY_1‖}\space (∵\space ‖w_1‖ = 1)$
2-3. 가중치 $w_1$ 을 이용하여 첫번째 PLS 변수( $t_1$ ) 추출
      $t_1 = X_1w_1$
2-4. $t_1$ 의 회귀계수 $b_1$ 을 계산
      $Y_1 = t_1b_1 + F_1$
      $b_1 = (t_1^Tt_1)^{-1}t_1^TY_1$ (by 최소제곱법)
두번째 PLS 변수( $t_2$ ) 추출
3-1. 두번째 X, Y 설정
⭐ 앞서 $t_1$ 이 설명한 부분은 제거하고, $t_1$ 이 설명하지 못한 부분( $F_1$ )에 다시 최소제곱법을 적용한다.
      $X_1 = t_1p_1^T + E_1\space (p_1^T = (t_1^Tt_1)^{-1}t_1^TX_1)$ (by 최소제곱법)
      ➡ $X_2 = E_1 = X_1 - t_1p_1^T$
      $Y_1 = t_1b_1 + F_1$
      ➡ $Y_2 = F_1 = Y_1 - t_1b_1$
3-2. 공분산이 최대가 되도록하는 가중치 $w_2$ 계산
3-3. 가중치 $w_2$ 을 이용하여 두번째 PLS 변수( $t_2$ ) 추출
3-4. $t_2$ 의 회귀계수 $b_2$ 을 계산
같은 방식으로 k번째 PLS 변수( $t_k$ ) 추출
4-1. k번째 X, Y 설정
      $X_{k-1} = t_{k-1}p_{k-1}^T + E_{k-1}\space (p_{k-1}^T = (t_{k-1}^Tt_{k-1})^{-1}t_{k-1}^TX_{k-1})$
      ➡ $X_k = E_{k-1} = X_{k-1} - t_{k-1}p_{k-1}^T$
      $Y_{k-1} = t_{k-1}b_{k-1} + F_{k-1}$
      ➡ $Y_k = F_{k-1} = Y_{k-1} - t_{k-1}b_{k-1}$
4-2. 공분산이 최대가 되도록하는 가중치 $w_k$ 계산
      $w_k = {X_k^TY_k\over ‖X_k^TY_k‖}\space (∵\space ‖w_k‖ = 1)$
4-3. 가중치 $w_k$ 을 이용하여 두번째 PLS 변수( $t_k$ ) 추출
      $t_k = X_kw_k$
4-4. $t_k$ 의 회귀계수 $b_k$ 을 계산
      $Y_k = t_kb_k + F_k$
      $b_k = (t_k^Tt_k)^{-1}t_k^TY_k$ (by 최소제곱법)
충분한 PLS 변수 추출 후, 예측 값을 계산
$y = \sum_{i=1}^{k}t_ib_i = t_1b_1 + t_2b_2 + \cdots + t_kb_k$

박서현

차곡차곡 쌓아가기

이전 포스트

[데이터분석] 부분최소제곱법

데이터분석

[데이터분석] 선형회귀분석

0개의 댓글