[ML] Decision Tree

yozzum·2023년 10월 9일
0

Machine Learning

목록 보기
1/30

Overview

  • Binary Tree 구조로 스무고개를 하는 ML 알고리즘

Selecting the split variable and determining the split point.

  • 일부 후보 변수 몇 개를 랜덤하게 뽑는다.
  • 분기마다 비용함수(불순도)가 가장 낮아지는 지점을 Grid Search를 통해 어떤 변수의 어떤 값을 기준으로 나눌지 정한다.
  • 불순도의 감소가 최대가 되도록 선택한다.

Cost Function

  • 2.1 Misclassification rate
  • 2.2 Gini Index
  • 2.3 Cross-entropy

Entropy: Disorder/Uncertainty

  • 0 <= Entropy <= 1 in binary classification.

Information Gain

  • The expected reduction in entropy caused by partitioning the data according to a certain variable. the Greater information gain, the better.

Disadvantages of a Single Tree Model

  • 계층적 구조로 인해 중간에 에러가 발생하면 다음 단계로 에러가 계속 전파됨.
  • 학습 데이터의 미세한 변동에도 최종 결과에 크게 영향을 미침
  • 적은 개수의 노이즈에도 크게 영향이 있음.
  • 나무의 최종노드 개수를 늘리면 과적합 위험이 있음. (Low Bias, High Variation)

profile
yozzum

0개의 댓글