특이도(Specificity) : TNR-True Negative Rate
실제 0 중 0이라고 예측한 것의 비율
민감도(Sensittivtiy) = 재현율(Recall) : TPR - True Positive Rate
"리콜에 민감하다"
F1 Score
ROC Curve : 가로축을 FPR(False Positive Rate = 1-특이도)값으로 두고, 세로축을 TPR(True Positive Rate, 민감도)값으로 두어 시각화한 그래프
이익 도표(Lift chart) : 분류모형의 성능을 평가하기 위한 척도로, 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표
분류 기법
로지스틱 회귀분석
y값의 범위를 [0,1]로 조정하기 위하여 로짓(logit) 변환을 사용
의 의미는 나머지 변수()가 주어질 때, 이 한 단위 증가할 때마다 성공()의 오즈가 몇 배 증가하는지를 나타내는 값
Odds(오즈)란 클래스 0에 속할 확률()이 클래스 1에 속할 확률 의 비로 나타낸다. 즉,
선형회귀분석과 로지스틱회귀분석의 비교
목적 | 선형회귀분석 | 로지스틱 회귀분석 |
---|---|---|
종속변수 | 연속형 변수 | (0, 1) |
계수 추정법 | 최소 제곱법 | 최대우도 추정법(MLE: Maximum Likelihood Estimation) |
모형 검정 | F-검정, T-검정 | 카이제곱 검정(-test) |
glm(종속변수 ~ 독립변수1+...+독립변수k, family=binomial, data=데이터셋명)
의사결정나무
분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받으며, 공간을 분할하는 모든 직사각형들이 가능한 순수하게 되도록 만든다
단점
의사결정나무의 분석 과정 : 성장 → 가지치기 → 타당성 평가 → 해석 및 예측
1) 성장단계
2) 가지치기 단계
불순도의 여러가지 측도
의사결정나무 알고리즘
앙상블 정의 : 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종예측 모형을 만드는 방법으로 다중모델 조합, 분류기 조합이 있음
앙상블 기법 종류