x * y * z
2*(x*y+y*z+z*x)
(x+y+z)/3
carat/volume
[Bofore]![]() | [After]![]() |
---|
[price 로그 처리 X]
모델로 학습시켜준 후 price와 carat의 산점도 그래프를 그렸을때 아래와 같이 나타났다.
train set과 test set의 R square과 RMSE를 비교해보았을때, 두 세트 모두 R square가 약 0.85로 높은 정확도를 보이고 있었다.
[price 로그 처리 O]
[Before]![]() | [After]![]() |
---|
단순 선형 회귀로 학습시킨 후 산점도 그래프를 그려보니 가격에 로그를 취해주기 전보다 데이터들이 모여있었다.
그러나 R square값을 비교해보면 오히려 로그를 취해준 후 아주 약간이지만 값이 낮아진 것을 확인할 수 있었다.
![]() | ![]() |
---|
![]() | ![]() |
---|
![]() | ![]() |
---|
--> 유의성 검정[f-test, t-test]: 전체 회귀 계수가 유의한지 검정하는 f-test, 회귀 계수 하나하나의 유의성을 검정하는 t-test 값을 확인하면 (1), (2), (3) 모두 회귀계수가 통계적으로 유의했다.
--> 종속변수와 독립변수 모두 로그를 취해주지 않았을 때(1), 독립변수만 로그를 취해주었을 때(2), 종속변수와 독립변수 모두 로그를 취해주었을 때(3)의 train 데이터의 오차 그래프를 비교해보면 (1)->(3)으로 갈수록 정규분포 모양을 하고 있었다.
실제로 그래프의 비대칭성을 나타내는 지표인 왜도(Skew)와 그래프의 뾰족한 정도를 나타내는 지표인 첨도(Kurtosis)값을 비교해보면, (3)의 왜도(Skew) 값이 0에 가장 가까우며 첨도(Kurtosis)값은 3에 가까운 것을 알 수 있다.
--> 오차항의 정규성[Omnibus,Prob(Omnibus),Jarque-Bera (JB),Prob(JB)]: (1), (2), (3) 모두 오차가 정규성을 만족하지 않는다. 따라서 위 모델을 사용하여 예측을 수행할 때에는 정규성을 만족하지 않는 잔차를 고려해야한다.
--> 오차항의 등분산성[Durbin-Watson]: (1), (2), (3) 모두 2에 가까운 값을 갖으므로 등분산성을 만족한다고 할 수 있다.
![]() | ![]() |
---|
![]() | ![]() |
---|
--> 유의성 검정[f-test, t-test]: (1), (2)의 f-test, t-test 값 모두 회귀계수가 통계적으로 유의했다.
--> 독립변수만 로그를 취해주었을 때(1), 종속변수와 독립변수 모두 로그를 취해주었을 때(2)의 train 데이터의 오차 그래프를 비교해보면 (2)가 조금 더 정규분포와 가까운 모양을 하고 있었다.
왜도(Skew), 첨도(Kurtosis)를 보면 (1), (2) 모두 한쪽으로 약간 비대칭하며 정규분포보다 뾰족한 모습을 갖고 있다.
--> 오차항의 정규성[Omnibus,Prob(Omnibus),Jarque-Bera (JB),Prob(JB)]: (1), (2) 모두 오차가 정규성을 만족하지 않는다.
--> 오차항의 등분산성[Durbin-Watson]: (1), (2) 모두 2에 가까운 값을 갖으므로 등분산성을 만족한다고 할 수 있다.
![]() | ![]() |
---|
![]() | ![]() |
---|
--> 유의성 검정[f-test, t-test]: (1), (2)의 f-test, t-test 값 모두 회귀계수가 통계적으로 유의했다.
--> 독립변수만 로그를 취해주었을 때(1), 종속변수와 독립변수 모두 로그를 취해주었을 때(2)의 train 데이터의 오차 그래프를 비교해보면 (2)가 훨씬 정규분포와 가까운 모양을 하고 있었다.
왜도(Skew), 첨도(Kurtosis)를 보면 (1), (2) 모두 한쪽으로 약간 비대칭하며 정규분포보다 뾰족한 모습을 갖고 있다.
--> 오차항의 정규성[Omnibus,Prob(Omnibus),Jarque-Bera (JB),Prob(JB)]: (1), (2) 모두 오차가 정규성을 만족하지 않는다.
--> 오차항의 등분산성[Durbin-Watson]: (1), (2) 모두 2에 가까운 값을 갖으므로 등분산성을 만족한다고 할 수 있다.