Train data에 꽉 맞지 않은 새로운 Line을 찾는다.(연속형, 이산형 데이터 모두 사용 가능하다)
왜?: 모델이 Train data에 덜 적합되어, 과적합(Overfitting) 문제를 해소할 수 있기 때문.
즉, 편향을 높이고, 분산을 줄이는 방식으로 정규화(Regularization)를 수행한다.
OLS와의 차이점:
1. OLS는 단순히 RSS의 최소화를 추구하지만 Ridge는 RSS와 lamda*slope-squared의 최소화를 추구한다.
2. sample의 개수가 부족할 때 OLS말고 Ridge를 사용하면 덜 민감하게 학습을 한다.
lamda(혹은 alpha, regularization paremeter, penalty term): 패널티의 정도를 결정한다. slope^2는 기존의 최소제곱법에 페널티를 추가한다.(절편값을 빼고 모든 변수를 포함)
0이상의 값을 가진다. 커질수록 직선의 기울기가 0에 가까워지면서 수평에 가까운(평균 기준모델) 그래프를 그리게 된다. 반면, 작아질수록 패널티가 줄어드니까, 기존 OLS와 같은 형태로 나타나게 된다.
lamda를 정하기 위해 Cross-Validation(CV, 교차검증)을 사용한다.
패널티의 효과: 기울기가 가파르면 x(독립 변수)의 변화에 따른 y(타겟)의 값이 민감하게 변화한다. 패널티가 있기 때문에 기울기가 완만해지고, x에 따른 y의 변화가 기존 회귀선(OLS)보다 덜 민감해진다.
릿지(L2)와 라쏘(L1)의 차이 + 엘라스틱 넷