Decision Tree Model

Jaewon·2023년 11월 5일

MachineLearning

목록 보기

1/9

설명변수(X) 간의 관계나 척도에 따라 목표변수(Y)를 예측하거나 분류하는 문제(회귀, 분류)에 활용되는 나무 구조의 모델
- 설명변수의 관측값을 모델에 입력해 목표변수를 분류, 혹은 예측하는 지도학습 기반의 방법론

목표변수(Y)에 대한 회귀, 분류 문제에 있어 어떤 설명변수(X)가 가장 중요한 영향인자인가를 확인하기 위함
- 각 설명변수(X)별로 어떤 척도에 따라 예측/분류를 진행했는지 상세한 기준을 알 수 있음

장점
- 결과의 해석이 용이하다
  - 직관적으로 해석할 수 있으며, 주요 변수 및 분리 기준을 제시해줌
- 비모수적 모델
  - 통계모델에 요구되는 가정(정규성, 독립성, 등분산성)에 자유롭다
    - 정규성 : 확률 오차는 정규분포를 따른다.
    - 독립성: 독립변수 간의 상관관계가 없이 독립성을 만족하는 것
      - 다중회귀분석의 중요한 가정
      - 독립변수와의 상관성과 자기 상관성을 확인해 독립성을 판단
    - 등분산성: 예측값과 상관없이 오차의 모든 분산이 동일
- 변수 간 상호작용
  - 변수 간의 상호작용을 고려하며 선형/비선형 관계 탐색 가능
단점
- 비안정성
  - 데이터 수가 적을 경우 특히 불안정하며, 과대적합 발생 가능성이 높으므로 가지치기가 필요
- 전체적인 선형관계 파악하기 어려움
- 분리 시 연속형 변수를 비연속화하므로(구간화처리), 분리 경계점 근처에서 오류 발생 가능

분할변수와 분할점을 다 바꿔가면서 오차를 확인해봄 (Greedy Search)
- 예를 들어, 분할 변수 3개에 대해 분할 점이 각각 2개씩 있다면 6번을 다 해보는 것
- 최소 오차를 갖는 분할변수와 분할점을 선택

요런 느낌

classification task에서는 y값이 "범주"에 해당함
따라서 다음의 세 가지 cost function이 존재
Misclassification rate
- 실제 범주와 모델이 예측한 범주가 얼마나 잘 매칭되었는가
- 즉, 매칭되지 않은 경우의 수를 최소화하겠다는 것
Gini Index
- 불순도를 측정하는 지표

이 그림에서 Cross-entropy값은 p=0.5일때 1이 되어야 맞는데, scale되어 시각화한 것으로 이해하면 됨

각 cost function의 계산 예시는 영상자료를 참고하자.

비용함수를 최소화하는 분할변수 및 분할점 사용
- 분할변수와 분할기준은 목표변수(y)의 분포를 가장 잘 구별해주는 쪽으로 정한다.
  - "목표변수의 분포를 잘 구별해주는 측도"는 순수도(purity) 혹은 불순도(impurity)로 정의
    - 예를 들어, 클래스 0과 클래스 1의 비율이 비슷하게 있는 노드는 불순도가 높게 되는 것
  - 각 노드에서 분할변수와 분할점의 설정은 "불순도의 감소가 최대"가 되도록 선택한다.
Information gain(IG): 특정 변수를 사용했을 때의 entropy 감소량
- IG가 클 수록 더 중요한 변수라 볼 수 있음