📌 회귀분석의 다양한 유형 (2)
- 선형 회귀(Linear regression)
- 다중 회귀(Multivariate Regression)
- 다항 회귀(Polynomial regression)
- 로지스틱 회귀(Logistic regression)
- 릿지회귀(Ridge regression)
- 라쏘 회귀(Lasso regression)
- 엘라스틱넷(LeasticNet)
오늘 다룰 개념인 릿지 회귀와 라쏘 회귀를 학습할 때 등장하는 개념인정규화에 대해 먼저 정리해보려고 한다.
정규화
모델의 과적합을 해결하기 위한 방법으로는 다음과 같은 방법이 있는데, 오늘 다룰 회귀 분석에서 등장하는 정규화는 바로 가중치 규제(weight regularization)에 해당한다.
- Train data 양 늘리기
- 모델 복잡도 줄이기
- 드롭 아웃
- 가중치 규제(weight regularization)
- 배치 정규화
가중치 규제
가중치 규제는 가중치의 값이 커지지 않도록 제한해 모델의 일반화 성능을 올리는 것으로 L1(라쏘) 규제와 L2(릿지) 규제가 존재한다.
norm
간단히 말해, 벡터가 얼마나 큰지 알려주는 것이다.
1) L1-Norm
맨하튼 거리
2) L2-Norm
유클리드 거리
y=w1x1+w2x2+w3x3+...
📍 릿지회귀
- 선형 회귀 분석 시 일어나는 과대적합 문제를 해결하기 위해 L2 규제를 적용하는 방식이다. 모델의 설명력에 기여하지 못하는 독립변수의 회귀계수 크기를 0에 근접하도록 축소시킨다.
-가중치의 제곱의 합이 특정 값 이하가 되도록 규제w12+w22+w32+...<=R
📍 라쏘회귀
- 라쏘 회귀는 L1-Norm을 사용한 회귀이다. 모델의 설명력에 기여하지 못하는 독립변수의 회귀계수를 0으로 만드는 방법이다.
여기서 릿지회귀와 다른 점은 회귀 계수를 아예 0으로 만들 수 있기 때문에 변수 선택을 통해 더욱 간단한 모델로 만들 수 있다는 특징이 있다.
= 이 특징이 라쏘회귀가 릿지회귀에 비해 우수하다는 것을 말하진 않음
- 라쏘 회귀분석에서는 일부 독립변수를 제거할 수 있기 때문에 일부 독립변수의 설명력이 크고, 나머지 독립변수의 설명변수가 설명력이 낮을 때 우수한 성능을 보임
- 가중치의 절대값의 합이 특정 값 이하가 되도록 규제
∣w1∣+∣w2∣+∣w3∣+...<=R
📍 엘라스틱 넷
- 엘라스틱넷 회귀는 L2규제(릿지)와 L1규제(라쏘)를 결합한 회귀이다. 이 때문에 수행시간이 비교적 오래 걸린다는 단점이 있다.