0725 모두연 세미나 키워드

Nobu90·2023년 7월 25일

트리
분류와 회귀에 모두 사용 가능, 전처리가 필요 없음?

수치와 범주 모두 사요 가능
화이트 박스 모델 사용
시각화 가능(사이킷런에서 제공중)
안정적

id3
c4.5
c5.0
cart
chaid
mars

트리 품질 평가
분류 트리 분할의 적합성 측정
지니 불순도, 정보 획득량 엔트로피

회귀트리
스퀘어로스
포아송분포

permutation importance(사이킷런 api)
feature importance
coefficients

bias-variance tradeoff

randaom forrest
bootstrap - 표본 추출
aggregating - 집계
bagging

out of bag(oob)

extremely randomized Trees
-부트스트래핑을 하지 않음

Boosting
Ada Boosting, Gradient Boosting
Stump
(많이 틀린 것에 대한 가중치를 부여)

boosting은 depth를 낮춰야함(10보다 낮음) 1-6
bagging은 높여야함

잔차 오차의 차이
실제값 모델 예측값
실제값
예측값

시제데이터를 얼마나 잘

예측값과 실제값 얼마나 다른지

적합성
정확성

회귀분석 모덱 적합성

모델평가 예측성능

그래디언트 vs 딥러닝
최종 예측에 대한 기여도
가중치 업데이트 크기

분류/회구

sklearn.ensemble.GradientBooosting C/R
loss 값 구하는 방식이 다름

criterion

squared loss (mse)
absolute loss (mae)
huber loss
quantile loss

scikt-learn/boosting

XGBoost
LightGBM
CatBoosting
3의 차이 확인 필요

histogram-based algorithm
(결측치가 있어도 동작한다)
gradient-based one-side sampling
(틀린 것을 위주로 샘플링)

greedy bundling
merge exculsive features

levelwise 방식으로 이용

goss
efb

skt-learn 공식 문서 확인

CatBoost

statquest 유튜브 채널
tensorboard

histogram-based gradient boosting(histogram - 결측치 상관 없음)

HistGradientBoostingRegressor
(전처리 필요 없음)

오늘 코드
machining learing with python