[ML] 지도 학습 - 회귀분석(2)

최윤진·2023년 2월 27일
0

ML

목록 보기
3/12
post-thumbnail

📌 회귀분석의 다양한 유형 (2)

  • 선형 회귀(Linear regression)
  • 다중 회귀(Multivariate Regression)
  • 다항 회귀(Polynomial regression)
  • 로지스틱 회귀(Logistic regression)
  • 릿지회귀(Ridge regression)
  • 라쏘 회귀(Lasso regression)
  • 엘라스틱넷(LeasticNet)

오늘 다룰 개념인 릿지 회귀와 라쏘 회귀를 학습할 때 등장하는 개념인정규화에 대해 먼저 정리해보려고 한다.

정규화

모델의 과적합을 해결하기 위한 방법으로는 다음과 같은 방법이 있는데, 오늘 다룰 회귀 분석에서 등장하는 정규화는 바로 가중치 규제(weight regularization)에 해당한다.

  • Train data 양 늘리기
  • 모델 복잡도 줄이기
  • 드롭 아웃
  • 가중치 규제(weight regularization)
  • 배치 정규화

가중치 규제

가중치 규제는 가중치의 값이 커지지 않도록 제한해 모델의 일반화 성능을 올리는 것으로 L1(라쏘) 규제와 L2(릿지) 규제가 존재한다.

norm

간단히 말해, 벡터가 얼마나 큰지 알려주는 것이다.

1) L1-Norm

맨하튼 거리

2) L2-Norm

유클리드 거리

y=w1x1+w2x2+w3x3+...y = w_1x_1 + w_2x_2 + w_3x_3 + ...

📍 릿지회귀

  • 선형 회귀 분석 시 일어나는 과대적합 문제를 해결하기 위해 L2 규제를 적용하는 방식이다. 모델의 설명력에 기여하지 못하는 독립변수의 회귀계수 크기를 0에 근접하도록 축소시킨다.
    -가중치의 제곱의 합이 특정 값 이하가 되도록 규제
    w12+w22+w32+...<=Rw_1^2 + w_2^2 + w_3^2 + ... <= R

📍 라쏘회귀

  • 라쏘 회귀는 L1-Norm을 사용한 회귀이다. 모델의 설명력에 기여하지 못하는 독립변수의 회귀계수를 0으로 만드는 방법이다.

여기서 릿지회귀와 다른 점은 회귀 계수를 아예 0으로 만들 수 있기 때문에 변수 선택을 통해 더욱 간단한 모델로 만들 수 있다는 특징이 있다.
= 이 특징이 라쏘회귀가 릿지회귀에 비해 우수하다는 것을 말하진 않음

  • 라쏘 회귀분석에서는 일부 독립변수를 제거할 수 있기 때문에 일부 독립변수의 설명력이 크고, 나머지 독립변수의 설명변수가 설명력이 낮을 때 우수한 성능을 보임
  • 가중치의 절대값의 합이 특정 값 이하가 되도록 규제
    w1+w2+w3+...<=R|w_1| + |w_2| + |w_3| + ... <= R

📍 엘라스틱 넷

  • 엘라스틱넷 회귀는 L2규제(릿지)와 L1규제(라쏘)를 결합한 회귀이다. 이 때문에 수행시간이 비교적 오래 걸린다는 단점이 있다.
profile
yunjin.log

0개의 댓글