다중선형회귀 Multiple Linear Regression

Ja L·2022년 12월 14일

Machine Learning

목록 보기

2/2

머신러닝모델을 만들 때 학습과 테스트 데이터를 분리 해야 하는 이유를 설명할 수 있습니다.
다중선형회귀를 이해하고 사용할 수 있습니다.
과적합/과소적합을 일반화 관점에서 설명할 수 있습니다.
편향/분산의 트레이트오프 개념을 이해하고 일반화 관점에서 설명할 수 있습니다.

회귀분석이란?

독립변수와 종속변수 간의 함수관계를 규명하는 통계적 방법

머신러닝모델을 만들 때 학습과 테스트 데이터를 분리 해야 하는 이유를 설명할 수 있다.

Train & Test 분리하는 이유

학습이 잘 되었는지 확인을 하기 위해서는 학습한 데이터 이외의 데이터가 필요하기 때문이다.

How?

시계열 → 타임스탬프 기준
other → 랜덤 분리

다중선형회귀를 이해하고 사용할 수 있다.

단순과 다중 선형 회귀 분석 차이

변수 1개 → 단순 선형회귀
변수가 2개 → 다중 선형회귀

cf) 다중 회귀 / 다항 회귀

다항회귀(polynomial regression)

다항회귀분석은 독립변수의 차수를 높이는 형태

Untitled

변수가 많아지면 어떤 장단점이 있을까요?

장점: 모델의 설명력, 예측 정확성, 변수들의 조합에 따른 결과를 알 수 있다

단점: 모델이 복잡해진다, 오버피팅(과적합)

독립변수(X)가 4개일 때 회귀계수는 몇 개?

-> coef 4개 + intersect(절편)1개 → 5개

과적합/과소적합을 일반화 관점에서 설명할 수 있습니다.

과적합(overfit):
너무 복잡하다 → 실제 데이터가 들어왔을 때 잘 맞추지 못하는 문제 (분산이 크다. )

과소적합(underfit):
너무 단순하다 → 학습이 끝까지(충분히) 이루어지지 않아서 잘 못 맞추는 문제 (편향이 크다. bias)

일반화란?

일반화 모델: 적절하게 학습한 모델. 새로운 데이터가 들어와도 문제가 없다.

모델이 새로운 데이터를 받았을 때 문제없이 예측한다(robust)

=robust(강건)한 모델 → 통계 & 머신러닝

❓그렇다면 일반화된 모델이 최적화된 모델이라고 할 수 있을까?

최적화(optimization): 데이터에 맞는 다양한 조건들을 알맞게 세팅하는 작업

일반화를 위해서 계속해서 최적화 작업을 해나간다.

잔차 vs 오차 vs 편차 편차 → 데이터 하나하나의 평균과의 거리 잔차와 오차의 구분 → 모집단과 표본이 명시적으로 구분되어있을 때 사용 일반적으로 머신 러닝에서 오차로 통일 → 잔차가 나왔을 때는 잔차와 에러가 구분이 되는 맥락에 있다고 생각한다 결론 : 오차로 통칭한다.

편향/분산의 트레이드오프 개념을 이해하고 일반화 관점에서 설명할 수 있습니다.

분산, 편향이 모두 낮을 때 → 좋은 모델

분산이 높을 때 → 모델이 과적합 되었다

편향이 높을 때 → 모델이 과소적합 되었다.

예측값들과 정답이 대체로 멀리 떨어져 있으면 결과의 편향(bias)이 높다고 말하고,예측값들이 자기들끼리 대체로 멀리 흩어져있으면 결과의 분산(variance)이 높다고 말합니다.

Untitled

cf) 주로 분산 낮으면 편향이 높고, 편향이 높으면 분산이 높다.

회귀모델을 평가하는 평가지표들

MSE (mean squared error) : $\frac{1}{n}\sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2}$
MAE (mean absolute error) : $\frac{1}{n}\sum_{i=1}^{n}\left | y_{i} - \hat{y_{i}} \right |$
RMSE (root mean squared error) : $\sqrt{MSE}$
R-squared (Coefficient of determination) : $1 - \frac{\sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2}}{\sum_{i=1}^{n}(y_{i} - \bar{y_{i}})^{2}} = 1 - \frac{SSE}{SST} = \frac {SSR}{SST}$
얼마나 설명력이 있는지를 0~1 사이의 값으로 나타낸다. 1에 가까울수록 설명력이 좋음.

cf )
SSE(Sum of Squares Error, 관측치와 예측치 차이): $\sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2}$
SSR(Sum of Squares due to Regression, 예측치와 평균 차이): $\sum_{i=1}^{n}(\hat{y_{i}} - \bar{y_{i}})^{2}$
SST(Sum of Squares Total, 관측치와 평균 차이): $\sum_{i=1}^{n}(y_{i} - \bar{y_{i}})^{2}$ , SSE + SSR

회귀모델 평가지표들은 각각 언제 사용하는가?

MAE: 평균 절대 오차는 데이터 세트의 실제 값과 예측 값 간의 절대 차이의 평균을 나타냅니다. 데이터 세트의 잔차 평균을 측정합니다.
MSE: 평균 제곱 오차는 데이터 세트의 원래 값과 예측 값 간의 차이 제곱의 평균을 나타냅니다. 잔차의 분산을 측정합니다.
RMSE: Root Mean Squared Error는 평균 제곱 오차의 제곱근입니다. 잔차의 표준편차를 측정합니다.
R^2: 결정 계수 또는 R-제곱 은 선형 회귀 모델에 의해 설명되는 종속 변수의 분산 비율을 나타냅니다. 척도가 없는 점수입니다. 즉, 값이 작거나 크든 상관없이 R 제곱의 값은 1보다 작습니다.

평가지표의 차이점

MSE(평균 제곱 오차) 및 Root Mean Square Error(평균 제곱근)는 MAE(평균 절대 오차)에 대한 큰 예측 오류에 페널티를 줍니다. 그러나 RMSE는 종속변수(Y축)와 동일한 단위를 가지므로 다른 임의 모델과 회귀 모델의 성능을 평가하기 위해 MSE보다 널리 사용됩니다.
MSE는 MAE와 같은 미분할 수 없는 함수와 비교하여 수학 연산을 쉽게 수행할 수 있도록 하는 미분 가능한 함수입니다. 따라서 많은 모델에서 RMSE는 MAE보다 해석하기 어렵지만 손실 함수를 계산하기 위한 기본 메트릭으로 사용됩니다.
MAE, MSE 및 RMSE 값이 낮을수록 회귀 모델의 정확도가 높음을 의미합니다. 그러나 R 제곱 값이 높을수록 바람직하다고 간주됩니다.
R 제곱 및 조정 R 제곱은 선형 회귀 모델의 독립 변수가 종속 변수의 변동성을 얼마나 잘 설명하는지 설명하는 데 사용됩니다. R 제곱 값은 모델에 중복 변수가 추가될 수 있는 독립 변수가 추가됨에 따라 항상 증가합니다. 그러나 수정된 R-제곱은 이 문제를 해결합니다.
조정된 R 제곱은 예측 변수의 수를 고려하며 우리 모델의 독립 변수 수를 결정하는 데 사용됩니다. 추가 변수에 의한 R 제곱의 증가가 충분히 크지 않으면 조정된 R 제곱의 값이 감소합니다.
다양한 선형 회귀 모델 간의 정확도를 비교하려면 RMSE가 R 제곱보다 더 나은 선택입니다.

결론

RMSE와 R-제곱은 선형 회귀 모델이 데이터 세트에 얼마나 잘 맞는지를 수량화합니다. RMSE는 회귀 모델이 응답 변수의 값을 절대적으로 얼마나 잘 예측할 수 있는지 알려주는 반면 R-제곱은 예측 변수가 응답 변수의 변동을 얼마나 잘 설명할 수 있는지 알려줍니다.

기준모델은 무엇으로 만드는가

target의 평균값

Ja L

DB Engineer

이전 포스트