[ML] 지도 학습 - 회귀분석(2)

최윤진·2023년 2월 27일

ML

목록 보기

3/12

📌 회귀분석의 다양한 유형 (2)

선형 회귀(Linear regression)
다중 회귀(Multivariate Regression)
다항 회귀(Polynomial regression)
로지스틱 회귀(Logistic regression)
릿지회귀(Ridge regression)
라쏘 회귀(Lasso regression)
엘라스틱넷(LeasticNet)

오늘 다룰 개념인 릿지 회귀와 라쏘 회귀를 학습할 때 등장하는 개념인정규화에 대해 먼저 정리해보려고 한다.

정규화

모델의 과적합을 해결하기 위한 방법으로는 다음과 같은 방법이 있는데, 오늘 다룰 회귀 분석에서 등장하는 정규화는 바로 가중치 규제(weight regularization)에 해당한다.

Train data 양 늘리기

모델 복잡도 줄이기

드롭 아웃

가중치 규제(weight regularization)

배치 정규화

가중치 규제

가중치 규제는 가중치의 값이 커지지 않도록 제한해 모델의 일반화 성능을 올리는 것으로 L1(라쏘) 규제와 L2(릿지) 규제가 존재한다.

norm

간단히 말해, 벡터가 얼마나 큰지 알려주는 것이다.

1) L1-Norm

맨하튼 거리

2) L2-Norm

유클리드 거리

y = w_1x_1 + w_2x_2 + w_3x_3 + ...

📍 릿지회귀

선형 회귀 분석 시 일어나는 과대적합 문제를 해결하기 위해 L2 규제를 적용하는 방식이다. 모델의 설명력에 기여하지 못하는 독립변수의 회귀계수 크기를 0에 근접하도록 축소시킨다.
-가중치의 제곱의 합이 특정 값 이하가 되도록 규제 $w_1^2 + w_2^2 + w_3^2 + ... <= R$

📍 라쏘회귀

라쏘 회귀는 L1-Norm을 사용한 회귀이다. 모델의 설명력에 기여하지 못하는 독립변수의 회귀계수를 0으로 만드는 방법이다.

여기서 릿지회귀와 다른 점은 회귀 계수를 아예 0으로 만들 수 있기 때문에 변수 선택을 통해 더욱 간단한 모델로 만들 수 있다는 특징이 있다.
= 이 특징이 라쏘회귀가 릿지회귀에 비해 우수하다는 것을 말하진 않음

라쏘 회귀분석에서는 일부 독립변수를 제거할 수 있기 때문에 일부 독립변수의 설명력이 크고, 나머지 독립변수의 설명변수가 설명력이 낮을 때 우수한 성능을 보임
가중치의 절대값의 합이 특정 값 이하가 되도록 규제 $|w_1| + |w_2| + |w_3| + ... <= R$