sns.kdeplot(y)
plt.show()
y = np.log1p(y)
sns.kdeplot(y)
plt.show()
원본 | 로그 변환 |
---|---|
![]() | ![]() |
분포가 0과 1 사이에 밀집되어 있는 것을 볼 수 있음(왼쪽) 이를 조정하기 위해 log를 사용(오른쪽)
로그 변환
데이터 분포 변환 방법 중 하나. 설명 및 종속 변수가 정규분포가 유사할 경우 성능이 높아지기 때문에, 로그를 취하는 경우 분포가 정규 분포에 가깝게 바뀔 때 사용(로그 정규 분포, log-normal distribution)
- 국가 별 수출액
- 사람의 통증 정도
- 개별 주식의 가격 변동성 분석
def rmse(y_test, y_pred):
return np.sqrt(mean_squared_error(np.expm1(y_test), np.expm1(y_pred)))
XGBoost
LGBM
Level wise | Leaf wise |
---|---|
![]() | ![]() |
모델의 성능을 최대화하는 하이퍼 파라미터를 찾는 방법
빅데이터 탐색 - 데이터 전처리 - 변수 변환
04-3. 데이터 전처리
언제 MSE, MAE, RMSE를 사용하는가?
21. XGBoost에 대해서 알아보자
RandomForest, XGBoost, LGBM, CatBoost 뭐가 다를까?