머신러닝
목표 : 일반적인 패턴 발견
X(설명변수) ,y(목표변수) 설정
training set(학습 데이터 ) & Validation set(검증 데이터) 분할
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3, random_state=13)
-> train set 70%, test 30%
-> random_state는 숫자 상관 x
파이프라인 구축
스케일러, 모델의 종류 튜플 형태
pipe_list=[('scaler', 스케일러()),('model',모델())]
pipe_model= Pipeline(pipe_list)
scoring= 성능 측정 지표
bestmodel=grid_model.best_estimator
Y_train_pred= best_model.predict(X_train)
Y_test_pred=best_model.predict(X_test)
1) 학습 평가
print(classification_report(Y_train, Y_train_pred))
2) 일반화 평가
print(classification_report(Y_test, Y_test_pred)