[나도코딩] 다항 회귀 (Polynomial Regression)

HYl·2022년 11월 8일
0

나도코딩_머신러닝

목록 보기
7/12

앞에서 배웠던 선형 회귀로 데이터를 가장 잘 표현하는 직선을 일차 방정식 형태로 구할 수 있다. 그러나, 일상 생활에서는 다소 복잡한 데이터들이 많이 있다.

ex) 기업의 성장 단계 (초기에 이익이 없음), 주택 전기 요금 (누진세)
=> 위의 예들을 일차 방정식으로 나타내기에는 무리가 있다.
=> 다항 회귀를 이용

다항 회귀, Polynomial Regression

다항 회귀를 사용하는 이유?

  • 일차 방정식 형태인 선형 회귀를 이용했을 때, 아래의 회색 직선과 같이 잔차의 크기가 매우 커질 수 있다. 따라서 하나의 직선으로 일부 데이터를 표현하기 어려움이 따른다. 이런 경우를 "과소적합" 이라고 한다.
    • 어느 정도의 데이터를 표현하지만, 개선의 여지가 충분한 상태
  • 위와 같은 이유로, 데이터를 더 잘 표현 하기위하여 degree를 2로 하면 보다 더 데이터를 실제값과 추정값 사이의 잔차를 줄일 수 있다.

degree 2

degree 7

  • 7차 방정식 일 때는, 직선이 모든 데이터를 지나고 있다. 즉 데이터를 완벽하게 표현하고 있다.
    • 훈련 데이터에 대해서는 완벽하다.
    • 하지만, 테스트 데이터를 이용하여 실제값을 구할 때 잔차가 매우 커서 점수가 낮게나오는 경향이 있다 => "과대 적합"
  • 과대 적합 : 훈련 데이터에 완벽하게 일치되어 있는 경우, 실제 데이터에서 예측이 올바르게 발생되지 않는다.

profile
꾸준히 새로운 것을 알아가는 것을 좋아합니다.

0개의 댓글