Decision Tree_Ai_D28금

dannialism·2021년 12월 24일
0

Decision tree
회기, 분류 문제 모두 적용 가능하다.
장점, 특성을 해석하기 좋다.
단점, 과적합 가능성이 많다.

예측하려하는 target과 연관된 features를 찾아 적용하는 것이 중요하다.
도메인 지식, 또는 accuracy 값을 비교하며 찾아 낼 수 있다.

cross validation
다양한 hyper parameter 를 이용하여 과적합을 줄이고 정확도를 높힌다.

기준 모델이 산출한 값과 비교하여 과적합, 과소적합을 판단할 수 있다.

pipe line
모델을 적용하기전에 해야하는 과정, onehotencoding, 정규화 등 필요한 단계를 파이프라인 처럼 배열하여 차례대로 데이터에 적용할 수 있다.

이 파이프 라인은 step 이라는 function으로 각 과정을 열람할 수 있게 하여 과정을 세세히 들여다 볼 수 있다.

impurity 는 모델이 판단을 내릴 때 틀릴 수 있는 확률을 이야기 한다.
empority

지니불순도나 엔트로피는 위의 불순도 개념에서 보면 됩니다. 불순도가 낮은경우 지니불순도나 엔트로피는 낮은값을 가지게 됩니다. 결국 노드를 분할하는 시점에서 가장 비용함수를 줄이는 분할특성과 분할지점을 찾아 내는 프로세스가 필요합니다.

profile
danny + realism

0개의 댓글