⌨ 입력
from pycaret.datasets import get_data
from pycaret.regression import *
import numpy as np
import pandas as pd
data = get_data('insurance')
💻 출력
위의 데이터셋에서 나머지 변수들을 가지고 charges를 예측해볼 것이다.
반드시 학습 전에 이뤄져야한다.
⌨ 입력
reg=setup(data,target='charges',train_size=0.8)
교차 검증을 통해 사용 가능한 추정기의 성능을 훈련/검증한다.
MSE를 기준으로 오름차순 정렬하였다.
📎 교차 검증이란?
👉 훈련 데이터 셋 그 자체로 훈련과 검증을 계속하다보면 기계가 훈련 데이터 셋에 과적합할 확률이 높게 된다. 그래서
훈련데이터 셋 | 테스트 데이터 셋 |
---|---|
80% | 20% |
이렇게 나누지 않고
훈련데이터 셋 | 검증 데이터 셋 | 테스트 데이터 셋 |
---|---|---|
60% | 20% | 20% |
이렇게 나눠서 훈련/검증/최종 테스트를 하는 방법을 교차 검증이라고 한다.
⌨ 입력
best=compare_models(sort='mse')
💻 출력
⌨ 입력
gbr=create_model('gbr',cross_validation=True)
💻 출력
결과물은 훈련과 검증을 통해 최종적으로 만들어진 모델에 대한 퍼포먼스이다.
👉 하이퍼파라미터를 튜닝하고 싶다면 tune_model(model,optimize=(MSE,MAE,RMSE등등),n_iter=샘플링 할 하이퍼파라미터 조합 수)
⌨ 입력
save_model(gbr,'gbr_model')
💻 출력
__
저장한 모델을 불러와서 평가를 할 수 있다.
⌨ 입력
gbr_model=load_model('gbr_model')
evaluate_model(gbr_model)
모델 평가 출력물에 관해서는 다음 글에서 작성하겠다.