트리
분류와 회귀에 모두 사용 가능, 전처리가 필요 없음?
수치와 범주 모두 사요 가능
화이트 박스 모델 사용
시각화 가능(사이킷런에서 제공중)
안정적
id3
c4.5
c5.0
cart
chaid
mars
트리 품질 평가
분류 트리 분할의 적합성 측정
지니 불순도, 정보 획득량 엔트로피
회귀트리
스퀘어로스
포아송분포
permutation importance(사이킷런 api)
feature importance
coefficients
bias-variance tradeoff
randaom forrest
bootstrap - 표본 추출
aggregating - 집계
bagging
out of bag(oob)
extremely randomized Trees
-부트스트래핑을 하지 않음
Boosting
Ada Boosting, Gradient Boosting
Stump
(많이 틀린 것에 대한 가중치를 부여)
boosting은 depth를 낮춰야함(10보다 낮음) 1-6
bagging은 높여야함
잔차 오차의 차이
실제값 모델 예측값
실제값
예측값
시제데이터를 얼마나 잘
예측값과 실제값 얼마나 다른지
적합성
정확성
회귀분석 모덱 적합성
모델평가 예측성능
그래디언트 vs 딥러닝
최종 예측에 대한 기여도
가중치 업데이트 크기
분류/회구
sklearn.ensemble.GradientBooosting C/R
loss 값 구하는 방식이 다름
criterion
squared loss (mse)
absolute loss (mae)
huber loss
quantile loss
scikt-learn/boosting
XGBoost
LightGBM
CatBoosting
3의 차이 확인 필요
histogram-based algorithm
(결측치가 있어도 동작한다)
gradient-based one-side sampling
(틀린 것을 위주로 샘플링)
greedy bundling
merge exculsive features
levelwise 방식으로 이용
goss
efb
skt-learn 공식 문서 확인
CatBoost
statquest 유튜브 채널
tensorboard
histogram-based gradient boosting(histogram - 결측치 상관 없음)
HistGradientBoostingRegressor
(전처리 필요 없음)
오늘 코드
machining learing with python