[ADsP 합격 노트] 3-5. 정형 데이터 마이닝(1)

wandajeong·2022년 12월 13일
0

ADsP

목록 보기
10/11

데이터마이닝의 개요

  • 데이터마이닝 : 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
  • 비지도 학습
    • OLAP(On-Line Analytical Processing)
    • 연관성 규칙발견
    • 군집분석
    • SOM(Self Organizing Map)
  • 데이터마이닝 추진단계 : 목적설정 → 데이터 준비 → 가공 → 기법 적용 → 검증
  • 데이터마이닝을 위한 데이터 분할
    • 데이터 양이 충분하지 않거나 입력 번수에 대한 설명이 충분한 경우
      • 홀드 아웃(hold-out) 방법: 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법(주로 학습용/시험용)
      • 교차확인(cross-validation) 방법: 주로 10-fold 교차분석 사용
  • 성과분석
    • 특이도(Specificity) : TNR-True Negative Rate

      실제 0 중 0이라고 예측한 것의 비율

      TNTN+FP\frac{TN}{TN+FP}

    • 민감도(Sensittivtiy) = 재현율(Recall) : TPR - True Positive Rate
      "리콜에 민감하다"

      TPTP+FN\frac{TP}{TP+FN}

    • F1 Score

      F1=2PrecisionRecallPrecistion+RecallF_1 = 2*\frac{Precision*Recall}{Precistion+Recall}

    • ROC Curve : 가로축을 FPR(False Positive Rate = 1-특이도)값으로 두고, 세로축을 TPR(True Positive Rate, 민감도)값으로 두어 시각화한 그래프

      • ROC곡선 아래의 면적을 의미하는 AUROC(Area Under ROC)값이 크면 클수록(1에 가까울수록) 모형의 성능이 좋다고 평가
    • 이익 도표(Lift chart) : 분류모형의 성능을 평가하기 위한 척도로, 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표

      • 각 등급은 예측확률에 따라 매겨진 순위이기 때문에, 상위 등급에서는 더 높은 반응률을 보이는 것이 좋은 모형 (Lift가 빠른속도로 감소)
      • % Capture Response : 반응검출율 = 해당 등급의 실제 구매자 / 전체 구매자
    ※ 분석의 활용성 측면 - Accuracy 중요, 분석의 안정성 측면 - Precision 중요

분류분석

  • 분류 기법

    • 회귀분석, 로지스틱 회귀분석
    • 의사결정나무, CART, C5.0
    • 베이지안 분류, 나이브 베이지안(Naive Bayesian)분류 : 베이즈 정리와 특징에 대한 조건부 독립을 가설로 하는 알고리즘으로 클래스에 대한 사전 정보와 데이터로부터 추출된 정보를 결합하고 베이즈 정리를 이용하여 어떤 데이터가 특정 클래스에 속하는지를 분류하는 알고리즘
    • 인공신경망
    • SVM
    • k 최근접 이웃
    • 규칙기반의 분류와 사례기반추론(Case-Based Reasoning)
  • 로지스틱 회귀분석

    • y값의 범위를 [0,1]로 조정하기 위하여 로짓(logit) 변환을 사용

    • exp(β1)exp(\beta_1)의 의미는 나머지 변수(x1,,xkx_1, … , x_k)가 주어질 때, x1x_1이 한 단위 증가할 때마다 성공(Y=1Y=1)의 오즈가 몇 배 증가하는지를 나타내는 값

      Odds(오즈)란 클래스 0에 속할 확률(1p1-p)이 클래스 1에 속할 확률 pp의 비로 나타낸다. 즉, Odds=p1pOdds = \frac{p}{1-p}

    • 선형회귀분석과 로지스틱회귀분석의 비교

      목적선형회귀분석로지스틱 회귀분석
      종속변수연속형 변수(0, 1)
      계수 추정법최소 제곱법최대우도 추정법(MLE: Maximum Likelihood Estimation)
      모형 검정F-검정, T-검정카이제곱 검정(x2x^2-test)
      glm(종속변수 ~ 독립변수1+...+독립변수k, family=binomial, data=데이터셋명)
  • 의사결정나무

    분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받으며, 공간을 분할하는 모든 직사각형들이 가능한 순수하게 되도록 만든다

    • 단점

      • 새로운 자료에 대한 과대적합이 발생할 가능성이 높다
      • 분류 경계선 부근의 자료값에 대해서 오차가 크다(연속형 변수를 비연속적인 값으로 취급하기 때문에?)
      • 설명변수 간의 중요도를 판단하기 쉽지 않다
    • 의사결정나무의 분석 과정 : 성장 → 가지치기 → 타당성 평가 → 해석 및 예측

      1) 성장단계

      • 이산형 목표변수: 카이제곱 통계량 p값, 지니 지수, 엔트로피 지수
      • 연속형 목표변수: 분산분석에서 F통계량, 분산의 감소량
      • 정지 기준 : 의사결정나무의 깊이(depth), 끝마디 레코드 수의 최소 개수 지정

      2) 가지치기 단계

      • 자료가 일정 수(가령 5) 이하일때 분할을 정지하고, 비용-복잡도 가지치기(cost complexity pruning)을 이용하여 가지치기
    • 불순도의 여러가지 측도

      • 카이제곱 통계량 ((실제도수기대도수)2/기대도수)\sum((실제도수-기대도수)^2/기대도수 ) *기대도수 = 열의 합계 x 합의 합계/ 전체합계
      • 지니지수 Gini(T)=1l=1kpl2Gini(T) = 1-\sum_{\substack{l=1}}^{k} p_l^2
      • 엔트로피 지수 Entropy(T)=(l=1kpllog2pl)Entropy(T) = -(\sum_{l=1}^{k} p_l\log_2 p_l)
    • 의사결정나무 알고리즘

      • CART(Classification and Regresstion Tree)
      • C4.0, C5.0 : 다지분리 가능, 엔트로피 지수 활용
      • CHAID(CHi-squared Automatic Interaction Detection)
      • 가지치기를 하지 않음. 입력변수가 반드시 범주형 변수여야함
      • 불순도 측도 : 카이제곱 통계량

앙상블 분석

  • 앙상블 정의 : 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종예측 모형을 만드는 방법으로 다중모델 조합, 분류기 조합이 있음

  • 앙상블 기법 종류

    • 배깅
      • 여러 개의 bootstrap 자료들 생성하고 각 bootstrap자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법
        *bootstrap : 주어진 자료에서 동일한 크기의 표본을 랜덤 복원 추출로 뽑은 자료 ※ bootstrap을 통해 100개의 샘플을 추출하더라도 샘플에 한번도 선택되지 않는 원데이터가 발생할 수 있는데 전체 샘플의 약 36.8%가 이에 해당한다.
      • 보팅(voting)은 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과를 선정
      • 배깅에서는 가지치기를 하지 않고 최대로 성장한 의사결정나무들을 활용
    • 부스팅
      • 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법
      • (Adaboost) 더 좋은 분류기 n개에 각각 가중치를 설정하고 n개의 분류기를 결합하여 최종 분류기를 만드는 방법
    • 랜덤 포레스트
      • 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형결합하여 최종 학습기를 만드는 방법
profile
ML/DL swimmer

0개의 댓글