criterion
max_depth
min_samples_split
min_samples_leaf
지니 vs 엔트로피
앙상블 기법
- 배깅 : 같은 알고리즘 -> 여러 모델 생성해 분류(랜덤포레스트)
- 부스팅 : 학습 및 예측을 해서 가중치를 반영(xgboost)
random_state = 0
으로 랜덤값 고정n_estimators
criterion
max_depth
min_samples_split
min_samples_leaf
뎁스를 얇게 하면? -> 성능 떨어짐!
booster
objective
max_depth
learning_rate
기울기가 0인 지점을 찾아나가는데, 그 간격이 0.1인 것
- 보폭이 작으면 -> 지점을 찾는데 더 오랜 시간이 소요되는 원리!
n_estimators
여기에서는 한 트리에서 학습한 걸 바탕으로 다음 트리 학습!(기존에는 각각 트리마다 학습하고 Voting했었음)
subsample
colsample_bytree
n_jobs
max_depth 올리기 전
max_depth를 5로 올리면? -> 성능 향상!
성능이 더 올라가는지 체크 -> learning_rate 0.1에서 0.05, n_estimators 100에서 500으로
eval_set = [(X_test, y_test)]
: 검증 데이터 설정early_stopping_rounds=10
: 10번 이상의 성능 향상이 없다면 종료한다는 의미사이킷런 내부 API로 실행
KFold
Stratified Kfold
Accuracy
Precision
Recall
F1
ROC-AUC
model.predict_proba
: 확률값으로 계산