[ADsP 합격 노트] 3-5. 정형 데이터 마이닝(1)

wandajeong·2022년 12월 13일

Odds bootstrap cart f1 score 랜덤포레스트 로지스틱회귀 민감도 배깅 부스팅 엔트로피지수 의사결정나무 지니지수 특이도

ADsP

목록 보기

10/11

데이터마이닝의 개요

데이터마이닝 : 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
비지도 학습
- OLAP(On-Line Analytical Processing)
- 연관성 규칙발견
- 군집분석
- SOM(Self Organizing Map)
데이터마이닝 추진단계 : 목적설정 → 데이터 준비 → 가공 → 기법 적용 → 검증
데이터마이닝을 위한 데이터 분할
- 데이터 양이 충분하지 않거나 입력 번수에 대한 설명이 충분한 경우
  - 홀드 아웃(hold-out) 방법: 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법(주로 학습용/시험용)
  - 교차확인(cross-validation) 방법: 주로 10-fold 교차분석 사용
성과분석
- 특이도(Specificity) : TNR-True Negative Rate
  
  실제 0 중 0이라고 예측한 것의 비율
  
  $\frac{TN}{TN+FP}$
- 민감도(Sensittivtiy) = 재현율(Recall) : TPR - True Positive Rate
  "리콜에 민감하다"
  
  $\frac{TP}{TP+FN}$
- F1 Score
  
  $F_1 = 2*\frac{Precision*Recall}{Precistion+Recall}$
- ROC Curve : 가로축을 FPR(False Positive Rate = 1-특이도)값으로 두고, 세로축을 TPR(True Positive Rate, 민감도)값으로 두어 시각화한 그래프
  - ROC곡선 아래의 면적을 의미하는 AUROC(Area Under ROC)값이 크면 클수록(1에 가까울수록) 모형의 성능이 좋다고 평가
- 이익 도표(Lift chart) : 분류모형의 성능을 평가하기 위한 척도로, 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표
  - 각 등급은 예측확률에 따라 매겨진 순위이기 때문에, 상위 등급에서는 더 높은 반응률을 보이는 것이 좋은 모형 (Lift가 빠른속도로 감소)
  - % Capture Response : 반응검출율 = 해당 등급의 실제 구매자 / 전체 구매자
※ 분석의 활용성 측면 - Accuracy 중요, 분석의 안정성 측면 - Precision 중요

분류분석

분류 기법
- 회귀분석, 로지스틱 회귀분석
- 의사결정나무, CART, C5.0
- 베이지안 분류, 나이브 베이지안(Naive Bayesian)분류 : 베이즈 정리와 특징에 대한 조건부 독립을 가설로 하는 알고리즘으로 클래스에 대한 사전 정보와 데이터로부터 추출된 정보를 결합하고 베이즈 정리를 이용하여 어떤 데이터가 특정 클래스에 속하는지를 분류하는 알고리즘
- 인공신경망
- SVM
- k 최근접 이웃
- 규칙기반의 분류와 사례기반추론(Case-Based Reasoning)

로지스틱 회귀분석

y값의 범위를 [0,1]로 조정하기 위하여 로짓(logit) 변환을 사용
$exp(\beta_1)$ 의 의미는 나머지 변수( $x_1, … , x_k$ )가 주어질 때, $x_1$ 이 한 단위 증가할 때마다 성공( $Y=1$ )의 오즈가 몇 배 증가하는지를 나타내는 값

Odds(오즈)란 클래스 0에 속할 확률( $1-p$ )이 클래스 1에 속할 확률 $p$ 의 비로 나타낸다. 즉, $Odds = \frac{p}{1-p}$

선형회귀분석과 로지스틱회귀분석의 비교

목적	선형회귀분석	로지스틱 회귀분석
종속변수	연속형 변수	(0, 1)
계수 추정법	최소 제곱법	최대우도 추정법(MLE: Maximum Likelihood Estimation)
모형 검정	F-검정, T-검정	카이제곱 검정( $x^2$ -test)

glm(종속변수 ~ 독립변수1+...+독립변수k, family=binomial, data=데이터셋명)

의사결정나무

분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받으며, 공간을 분할하는 모든 직사각형들이 가능한 순수하게 되도록 만든다
- 단점
  - 새로운 자료에 대한 과대적합이 발생할 가능성이 높다
  - 분류 경계선 부근의 자료값에 대해서 오차가 크다(연속형 변수를 비연속적인 값으로 취급하기 때문에?)
  - 설명변수 간의 중요도를 판단하기 쉽지 않다
- 의사결정나무의 분석 과정 : 성장 → 가지치기 → 타당성 평가 → 해석 및 예측
  
  1) 성장단계
  - 이산형 목표변수: 카이제곱 통계량 p값, 지니 지수, 엔트로피 지수
  - 연속형 목표변수: 분산분석에서 F통계량, 분산의 감소량
  - 정지 기준 : 의사결정나무의 깊이(depth), 끝마디 레코드 수의 최소 개수 지정
  2) 가지치기 단계
  - 자료가 일정 수(가령 5) 이하일때 분할을 정지하고, 비용-복잡도 가지치기(cost complexity pruning)을 이용하여 가지치기
- 불순도의 여러가지 측도
  - 카이제곱 통계량 $\sum((실제도수-기대도수)^2/기대도수 )$ *기대도수 = 열의 합계 x 합의 합계/ 전체합계
  - 지니지수 $Gini(T) = 1-\sum_{\substack{l=1}}^{k} p_l^2$
  - 엔트로피 지수 $Entropy(T) = -(\sum_{l=1}^{k} p_l\log_2 p_l)$ 으
- 의사결정나무 알고리즘
  - CART(Classification and Regresstion Tree)
  - C4.0, C5.0 : 다지분리 가능, 엔트로피 지수 활용
  - CHAID(CHi-squared Automatic Interaction Detection)
  - 가지치기를 하지 않음. 입력변수가 반드시 범주형 변수여야함
  - 불순도 측도 : 카이제곱 통계량

앙상블 분석

앙상블 정의 : 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종예측 모형을 만드는 방법으로 다중모델 조합, 분류기 조합이 있음
앙상블 기법 종류
- 배깅
  - 여러 개의 bootstrap 자료들 생성하고 각 bootstrap자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법
    *bootstrap : 주어진 자료에서 동일한 크기의 표본을 랜덤 복원 추출로 뽑은 자료 ※ bootstrap을 통해 100개의 샘플을 추출하더라도 샘플에 한번도 선택되지 않는 원데이터가 발생할 수 있는데 전체 샘플의 약 36.8%가 이에 해당한다.
  - 보팅(voting)은 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과를 선정
  - 배깅에서는 가지치기를 하지 않고 최대로 성장한 의사결정나무들을 활용
- 부스팅
  - 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법
  - (Adaboost) 더 좋은 분류기 n개에 각각 가중치를 설정하고 n개의 분류기를 결합하여 최종 분류기를 만드는 방법
- 랜덤 포레스트
  - 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형결합하여 최종 학습기를 만드는 방법

wandajeong

ML/DL swimmer

이전 포스트

[ADsP 합격 노트] 3-4. 시계열 분석, 주성분 분석

다음 포스트

[ADsP 합격 노트] 3-5. 정형 데이터 마이닝(1)

ADsP

데이터마이닝의 개요

분류분석

앙상블 분석

[ADsP 합격 노트] 3-4. 시계열 분석, 주성분 분석

[ADsP 합격 노트] 3-5. 정형 데이터 마이닝(2)

0개의 댓글