[ADsP] 3과목 - 데이터분석(정형 데이터 마이닝)

김민수·2023년 5월 14일
0

ADsP

목록 보기
5/5
post-thumbnail

📌 3장. 정형 데이터 마이닝

1. 데이터 마이닝

1) 데이터 마이닝 개요

  • 데이터 마이닝의 이해

    • 개념
      • Data Mining
      • 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 한다.
    • 통계분석과 데이터 마이닝의 차이
      • 통계분석: 표본을 통해 의미있는 자료를 추출하고, 이를 기반으로 의사결정, 요약, 연관성 파악, 예측 등의 결과로 이어지도록 하는 일련의 과정을 말한다.
      • 수집 -> 정제 -> 추정 -> 검정
    • 데이터 마이닝
      • 데이터들 속에 숨겨진 규칙이나 패턴을 찾아낸다면 데이터 마이닝을 통해 일종의 함수, 즉 모형을 만들 수 있고 그 모형을 토대로 예측이 가능하다.
      • 목적 정의 -> 데이터 준비 -> 데이터 가공 -> 데이터 마이닝 기법 적용 -> 검증
  • 데이터 마이닝의 종류

    • 데이터 마이닝 방법에 따른 분류

      • 지도학습: 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것이다.

      • 비지도학습: 지도학습과는 달리 정답을 알려주지 않고 학습하는 것이다.

    • 데이터 마이닝 분석 목적에 따른 분류

      • 분류 분석: 데이터가 어느 그룹에 속하는지 판별하고자 하는 분석 기법
      • 군집 분석: 비지도학습 중 하나로 여러 이질적인 데이터들 사이의 유사성을 측정하여 유사성이 높은 객체끼리 하나의 그룹으로 묶기 위한 분석 방법
      • 연관 분석: 비지도학습 중 하나로 데이터의 연관성을 파악하는 분석 방법
  • 데이터 마이닝의 프로세스

    • 목적 정의
      • 데이터 마이닝의 결과로 무엇을 알고자 하는지 분명한 목적을 설정하는 단계다.
    • 데이터 준비
      • 고객정보, 고객거래정보 등 데이터 마이닝에 필요한 데이터를 수집하는 단계다.
    • 데이터 가공
      • 데이터 마이닝 목적에 따른 목적 변수를 정의하고 데이터 마이닝에 적용가능한 형식으로 데이터를 변환하는 단계다.
    • 데이터 마이닝 기법 적용
      • 준비된 데이터를 활용하여 데이터 마이닝 기법을 적용하는 단계다.
    • 검증
      • 데이터 마이닝의 결과로 얻은 모델에 대한 평가 및 실제 없무에서 적용 가능한지 성능을 검증하는 단계다.

2) 데이터 분할

  • 데이터 분할

    • 데이터를 훈련용, 검정용, 평가용의 세가지 데이터로 분할한다.

    • 훈련용 데이터: 모델을 구출하기 위해 활용됨

    • 검정용 데이터: 구축된 모델이 적합한지 검증함

    • 평가용 데이터: 최종적으로 구축된 모델의 성능을 평가하는데 사용함

      - 참고
        ∙ 파라미터(매개변수) : 모델이 구축되는 과정에서 사람의 개입이 없이 박견되는 최적의 값으로 회귀분석의 회귀계수, 인공신경망의 가중치 등을 예로 들 수 있다.
        ∙ 하이퍼파라미터(초매개변수) : 모델 구축 외적인 요소로 분석 수행자가 찾아주어야 하는 최적의 값으로 뒤에서 배우게 될 인공신경망의 은닉 층의 수, 은닉 노드의 수, k-NN의 k값을 예로 들 수 있다.     
  • 데이터 분할을 통한 검증

    • 홀드아웃
      • 전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식이다.
    • k-Fold 교차검증(Cross-Validation)
      • 전체 데이터셋을 k개의 집단으로 구분한 뒤 k-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로 사용하여 구축된 k개의 모델을 종합하여 최종 모델을 구축하는 방법이다.
    • 붓스트랩
      • 표본을 다시 추출하는 방법의 일종이다.
      • 항상 관측된 데이터로부터 복원추출하며, 추정의 신뢰성을 평가하는데 사용된다.
      • 데이터셋의 분포가 고르지 않은 경우에 사용될 수 있으며, 과적합을 줄이는 데 도움이 된다.
    • 계층별 k-겹 교차 검증
      • 불균형 데이터를 분류하는 무제에서 사용하는 방법으로 작동 방식은 k-폴드 교차검증과 동일하다.

2. 분류 분석

1) 로지스틱 회귀분석

  • 로지스틱 회귀분석
    • 독립변수의 선형결합을 이용해 사건의 발생 가능성을 예측하는 분석방법으로 종속변수(y)가 범주형 변수일 때 사용가능하다.
  • 로직스틱 회귀분석의 변수
    • 종속변수가 속할 수 있는 집단이 두 개로 이진분류가 기본이며, 세 개 이상의 집단을 분류하는 경우 이를 '다중 로지스틱 회귀분석'이라 한다.
    • 독립변수가 연속형이면서 종속변수가 범주형일 때 가능하다.
    • 독립변수가 어떤 값을 가지든 상관없이 종속변수는 확률값을 가진다.

2) 로지스틱 회귀분석의 알고리즘

  • 오즈(Odds)

    • 오즈 : 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 값
    • 오즈의 한계 : 음수를 가질 수 없다는 것이고, 확률값과 오즈의 그래프는 비대칭성을 띤다는 것

  • 로짓변환

    • 로짓변환 : 오즈의 한계를 극복하기 위해 오즈에 로그값을 취한 것
    • 오즈의 범위가 무한대에서 확장되며 확률과 로짓값의 그래프는 성공확률 0.5를 기준으로 대칭 형태를 띠게 된다.

  • 시그모이드 함수

    • 시그모이드 함수 : 로지스틱 회귀분석과 인공신경망 분석에서 활성화 함수로 활용되는 함수

    • 로짓 함수와 역함수 관계

3) 의사결정나무

  • 의사결정나무

    • 개요
      • 자료를 학습하여 특정 분리 규칙을 찾아내고, 그에 따라 몇 개의 소집단으로 분류하는 분석 방법
      • 데이터의 어떤 기준을 바탕으로 분류 기준값으로 정의하는지가 알고리즘의 성능에 큰 영향을 미친다. 올바른 분류를 위해서는 상위 노드에서 하위 노드로 갈수록 집단 내에서는 동질성이, 집단간에 이질성이 커져야 한다.
    • 구성요소
      - 종속변수가 연속형인 회귀트리와 종속변수가 이산형인 분류트리로 구분된다.

    • 의사결정나무의 활용
      • 세분화: 비슷한 특성을 가진 그룹별로 분할
      • 분류: 종속변수의 범주를 몇 개의 등급으로 분류
      • 예측: 데이터들로부터 규칙을 찾아내어 이를 예측에 활용
      • 차원축소 및 변수선택: 여러 개의 독립변수들 중에서 종속변수에 큰 영향을 끼치는 변수를 선택
      • 교호작용: 여러 개의 독립변수들을 결합하여 종속변수에 작용하는 규칙을 파악, 범주형 변수를 병합 또는 연속형 변수를 몇 개의 등급으로 이산화
    • 의사결정나무의 특징

  • 분석 과정

    • 성장
      • 성장단계: 각 마디에서 최적의 분리 규칙을 찾아 의사결정나무를 형성하고 적절한 정지규칙을 만족하면 나무의 성장을 중단한다.
      • 분리기준: 데이터를 분류하는 방법으로 불순도를 사용한다. 불순도는 자료들의 범주가 한 그룹 안에 얼마나 섞여 있는지를 나타내는 측도로서 분류가 잘 되어 하나의 범주로만 구성되어 있으면 불순도 값을 작고, 다양한 범주의 데이터로 구성되어 있으면 불순도 값은 크다.
      • 정지규칙: 분석자가 설정한 특정 조건하에 현재의 마디에서 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 정지시키다.

    • 가지치기
      • 데이터 마이닝 기법 중 하나로 모형이 복잡한 경우 과적합이, 너무 단순한 경우 과소적합이 발생한다.
    • 타당성 평가
      • 형성된 의사결정나무를 평가하는 단계다.
    • 해석 및 예측
      • 구축된 의사결정나무를 예측에 적용하고 이를 해석하는 단계다.

4) 앙상블 분석

  • 앙상블 분석 개요

    • 모형의 예측력을 높이고자 여러 번 의 데이터 분할을 통하여 구축된 다수의 모형을 결합하여 새로운 모형을 만드는 방법이다.
  • 앙상블 분석의 종류

    • 배깅
      • Bootstrap Aggregating의 줄임말
      • 여러 개의 붓스트랩을 집계하는 알고리즘
        • 붓스트랩(Bootstrap) : 원본 데이터와 같은 크기의 표본을 랜덤복원추출한 샘플 데이터를 의미하며, 특히 모델 구축을 위한 훈련 데이터를 가리킨다.

3. 군집 분석

4. 연관 분석

참고 블로그
시그모이드 그래프

0개의 댓글