Section review
sprint 1
- 지도학습 vs 비지도학습
- 비지도 학습 (target값이 없음), 딥러닝과 연계해서 많이 발전 중
- linear regression
- Regression : 성능은 안좋지만 과적합이 안된다는 장점
- Regularization (Ridge, Lasso)
- classifivation
- baseline
- one-hot encoding (high cardinality일 경우, 너무 많은 colunm을 생성함)
- train/validation/test set 나누기
sprint 2
- Decision tree (분류, 회귀 모두 사용 가능, 앙상블의 기본 모델로 많이 사용)
- pipeline (sklearn에서 데이터를 처리하는 component를 연속적으로 처리할 수 있는 기능)
- ensemble 머신러닝 모델들을 조합하여 만듦 (stacking이라는 방법 한번 보기)
- 평가지표
- cross-validation (overfitting을 통해 과적합이 일어났는지 확인, 모델의 신뢰도 up)
- hyperparameter tuning (random serch, grid serch, 하이퍼파라미터를 직접 조절하면서 어떤 기능을 하는지 익힐 필요가 있음)
sprint 3
- 모델에 대한 시나리오를 짜기 전에 이러한 workflow를 확인
- leakage( 예측을 해야하는 시점에 데이터를 잘 모르고 있는 경우에 발생) 튜닝도 안하고 그냥 간단하게 돌렸는데, 성능이 너무 좋다 -> 누수의 가능성 있음
- imbalanced data(undersampling, oversampling, class weight 조절)
- data wrangling
- boosting model (tree ensemble)
- feature importances(permutaion importance 등..)
- PDP
- SHAP