[PyCaret] 회귀분석을 진행해보자.

sykim·2023년 7월 22일
0

PyCaret

목록 보기
2/3

1. 연습 데이터 셋 불러오기

⌨ 입력

from pycaret.datasets import get_data
from pycaret.regression import *
import numpy as np
import pandas as pd
data = get_data('insurance')

💻 출력

위의 데이터셋에서 나머지 변수들을 가지고 charges를 예측해볼 것이다.


2. 학습을 진행하기 전 환경 초기화

반드시 학습 전에 이뤄져야한다.
⌨ 입력

reg=setup(data,target='charges',train_size=0.8)

💻 출력


3-1. 전체 모델 비교

교차 검증을 통해 사용 가능한 추정기의 성능을 훈련/검증한다.
MSE를 기준으로 오름차순 정렬하였다.
📎 교차 검증이란?
👉 훈련 데이터 셋 그 자체로 훈련과 검증을 계속하다보면 기계가 훈련 데이터 셋에 과적합할 확률이 높게 된다. 그래서

훈련데이터 셋테스트 데이터 셋
80%20%

이렇게 나누지 않고

훈련데이터 셋검증 데이터 셋테스트 데이터 셋
60%20%20%

이렇게 나눠서 훈련/검증/최종 테스트를 하는 방법을 교차 검증이라고 한다.
⌨ 입력

best=compare_models(sort='mse')

💻 출력


3-2. 특정 모델 생성

⌨ 입력

gbr=create_model('gbr',cross_validation=True)

💻 출력

결과물은 훈련과 검증을 통해 최종적으로 만들어진 모델에 대한 퍼포먼스이다.

👉 하이퍼파라미터를 튜닝하고 싶다면 tune_model(model,optimize=(MSE,MAE,RMSE등등),n_iter=샘플링 할 하이퍼파라미터 조합 수)


4. 모델 저장

⌨ 입력

save_model(gbr,'gbr_model')

💻 출력

__

5. 모델 평가

저장한 모델을 불러와서 평가를 할 수 있다.

⌨ 입력

gbr_model=load_model('gbr_model')
evaluate_model(gbr_model)

모델 평가 출력물에 관해서는 다음 글에서 작성하겠다.

profile
배움을 기록하는 습관 들이기

0개의 댓글