Multiple Linear Regression

TaeWoo Lee / Kris·2021년 12월 19일

Code States [AI_09] Section2

목록 보기

2/12

모델 학습에 사용한 훈련(train) 데이터를 잘 맞추는 모델이 아니라 학습에 사용하지 않은 테스트(test) 데이터를 얼마나 잘 맞추는지가 중요
데이터를 훈련/테스트 데이터로 나누어야 우리가 만든 모델의 예측 성능을 제대로 평가
학습에 사용하는 데이터와 모델을 평가하는데 사용하는 데이터가 달라야 한다
- 데이터를 무작위로 선택해 나누는 방법이 일반적이지만 시계열 데이터를 가지고 과거에서 미래를 예측하려고 하는 경우 무작위로 데이터를 섞으면 절대로 안되고 이때는 훈련 데이터 보다 테스트 데이터가 미래의 것이어야 할 것

MSE (Mean Squared Error) =
$\frac{1}{n}\sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2}$
- MSE는 에러가 크면 클수록 그에 따른 가중치를 높게 반영하지만 Outlier에 민감(에러 값이 증가함에 따라 손실 함수가 제곱배 만큼 커지기 때문)
MAE (Mean absolute error) = $\frac{1}{n}\sum_{i=1}^{n}\left | y_{i} - \hat{y_{i}} \right |$
- MAE는 Outlier가 있어도 최대한 잘 추정된 데이터들의 특성을 반영
RMSE (Root Mean Squared Error) =
$\sqrt{MSE}$
- 에러에 따른 손실이 기하 급수적으로 올라가는 상황에서 적합
R-squared (Coefficient of determination) =
$1 - \frac{\sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2}}{\sum_{i=1}^{n}(y_{i} - \bar{y_{i}})^{2}} = 1 - \frac{SSE}{SST} = \frac {SSR}{SST}$
- 값이 1에 가까울 수록 성능이 좋음
참고
- SSE(Sum of Squares Error, 관측치와 예측치 차이): $\sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2}$
- SSR(Sum of Squares due to Regression, 예측치와 평균 차이): $\sum_{i=1}^{n}(\hat{y_{i}} - \bar{y_{i}})^{2}$
- SST(Sum of Squares Total, 관측치와 평균 차이): $\sum_{i=1}^{n}(y_{i} - \bar{y_{i}})^{2}$ , SSE + SSR
회귀 오류지표 참조 사이트