[혼자 공부하는 머신러닝+딥러닝] - CH.5-3 Tree Ensemble

Jeonghwan Kim·2022년 11월 15일

Gradient Boosting LightGBM Tree Ensemble XGBoost ensemble 머신러닝 혼자 공부하는 머신러닝+딥러닝

혼자 공부하는 머신러닝+딥러닝

목록 보기

12/23

주요 개념

앙상블 학습: 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘
랜덤 포레스트: 대표적인 결정 트리 기반의 앙상블 학습 방법, 부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만듦
엑스트라 트리: 랜덤포레스트와 비슷하게 결정 트리를 사용하여 앙상블 모델을 만들지만 부트스트랩 샘플을 사용하지 않음, 랜덤하게 노드를 분할해 과대적합을 감소시킴
그레디언트 부스팅: 결정트리를 연속적으로 추가하여 손실 함수를 최소화하는 앙상블 방법, 훈련속도가 느리지만 성능이 더 좋음
히스토그램 기반 그레디언트 부스팅: 그레디언트 부스팅의 속도를 개선, 높은 성능을 가짐

랜덤 포레스트

엑스트라 트리

랜덤포레스트와 유사하나 부트스트랩 샘플을 사용하지 않고 각 결정 트리를 만들 때 전체 훈련 세트를 사용함
노드를 분할할 때 가장 좋은 분할을 찾는 것이 아니라 무작위로 뿐할함
특성을 무작위로 분할한다면 성능이 낮아이지만 많은 트리를 앙상블 하기에 오버피팅을 막고 검증 세트의 점수를 높이는 효과가 있음

그레디언트 부스팅

깊이가 얕은 결정트리를 사용하기에 오버피팅에 강하고 높은 일반화 성능

히스토그램 기반 그레디언트 부스팅

그레디언트 부스팅의 속도와 성능을 개선한 히스토그램 기반 그레디언트 부스팅
입력 특성을 256개의 구간으로 나누어 노드를 분할할 때 최적의 분할을 빠르게 찾음

XGBoost, LightGBM

tree_method 매개변수를 'hist'로 지정하여 히스토그램 기반 그레디언트 부스팅 가용

colab 링크: https://colab.research.google.com/drive/1f40IyLf17SSGRUJL8uHkdLgCmQKThK30?usp=sharing

참고: 혼자 공부하는 머신러닝+딥러닝

이전 포스트

[혼자 공부하는 머신러닝+딥러닝] - CH.5-2 Cross Validation & Grid Search

다음 포스트

[혼자 공부하는 머신러닝+딥러닝] - CH.6-1 Clustering

0개의 댓글