앞에서 배웠던 선형 회귀로 데이터를 가장 잘 표현하는 직선을 일차 방정식 형태로 구할 수 있다. 그러나, 일상 생활에서는 다소 복잡한 데이터들이 많이 있다.
ex) 기업의 성장 단계 (초기에 이익이 없음), 주택 전기 요금 (누진세)
=> 위의 예들을 일차 방정식으로 나타내기에는 무리가 있다.
=> 다항 회귀를 이용
다항 회귀를 사용하는 이유?
- 일차 방정식 형태인 선형 회귀를 이용했을 때, 아래의 회색 직선과 같이 잔차의 크기가 매우 커질 수 있다. 따라서 하나의 직선으로 일부 데이터를 표현하기 어려움이 따른다. 이런 경우를 "과소적합" 이라고 한다.
- 어느 정도의 데이터를 표현하지만, 개선의 여지가 충분한 상태
- 위와 같은 이유로, 데이터를 더 잘 표현 하기위하여 degree를 2로 하면 보다 더 데이터를 실제값과 추정값 사이의 잔차를 줄일 수 있다.
- 7차 방정식 일 때는, 직선이 모든 데이터를 지나고 있다. 즉 데이터를 완벽하게 표현하고 있다.
- 훈련 데이터에 대해서는 완벽하다.
- 하지만, 테스트 데이터를 이용하여 실제값을 구할 때 잔차가 매우 커서 점수가 낮게나오는 경향이 있다 => "과대 적합"