Overview
- Binary Tree 구조로 스무고개를 하는 ML 알고리즘
Selecting the split variable and determining the split point.
- 일부 후보 변수 몇 개를 랜덤하게 뽑는다.
- 분기마다 비용함수(불순도)가 가장 낮아지는 지점을 Grid Search를 통해 어떤 변수의 어떤 값을 기준으로 나눌지 정한다.
- 불순도의 감소가 최대가 되도록 선택한다.
Cost Function
- 2.1 Misclassification rate
- 2.2 Gini Index
- 2.3 Cross-entropy

Entropy: Disorder/Uncertainty
- 0 <= Entropy <= 1 in binary classification.

- The expected reduction in entropy caused by partitioning the data according to a certain variable. the Greater information gain, the better.
Disadvantages of a Single Tree Model
- 계층적 구조로 인해 중간에 에러가 발생하면 다음 단계로 에러가 계속 전파됨.
- 학습 데이터의 미세한 변동에도 최종 결과에 크게 영향을 미침
- 적은 개수의 노이즈에도 크게 영향이 있음.
- 나무의 최종노드 개수를 늘리면 과적합 위험이 있음. (Low Bias, High Variation)
