[ADsP] 3과목 - 데이터분석(정형 데이터 마이닝)

김민수·2023년 5월 14일

ADsP

목록 보기

5/5

📌 3장. 정형 데이터 마이닝

1. 데이터 마이닝

1) 데이터 마이닝 개요

데이터 마이닝의 이해
- 개념
  - Data Mining
  - 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 한다.
- 통계분석과 데이터 마이닝의 차이
  - 통계분석: 표본을 통해 의미있는 자료를 추출하고, 이를 기반으로 의사결정, 요약, 연관성 파악, 예측 등의 결과로 이어지도록 하는 일련의 과정을 말한다.
  - 수집 -> 정제 -> 추정 -> 검정
- 데이터 마이닝
  - 데이터들 속에 숨겨진 규칙이나 패턴을 찾아낸다면 데이터 마이닝을 통해 일종의 함수, 즉 모형을 만들 수 있고 그 모형을 토대로 예측이 가능하다.
  - 목적 정의 -> 데이터 준비 -> 데이터 가공 -> 데이터 마이닝 기법 적용 -> 검증
데이터 마이닝의 종류
- 데이터 마이닝 방법에 따른 분류
  - 지도학습: 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것이다.
  - 비지도학습: 지도학습과는 달리 정답을 알려주지 않고 학습하는 것이다.
- 데이터 마이닝 분석 목적에 따른 분류
  - 분류 분석: 데이터가 어느 그룹에 속하는지 판별하고자 하는 분석 기법
  - 군집 분석: 비지도학습 중 하나로 여러 이질적인 데이터들 사이의 유사성을 측정하여 유사성이 높은 객체끼리 하나의 그룹으로 묶기 위한 분석 방법
  - 연관 분석: 비지도학습 중 하나로 데이터의 연관성을 파악하는 분석 방법
데이터 마이닝의 프로세스
- 목적 정의
  - 데이터 마이닝의 결과로 무엇을 알고자 하는지 분명한 목적을 설정하는 단계다.
- 데이터 준비
  - 고객정보, 고객거래정보 등 데이터 마이닝에 필요한 데이터를 수집하는 단계다.
- 데이터 가공
  - 데이터 마이닝 목적에 따른 목적 변수를 정의하고 데이터 마이닝에 적용가능한 형식으로 데이터를 변환하는 단계다.
- 데이터 마이닝 기법 적용
  - 준비된 데이터를 활용하여 데이터 마이닝 기법을 적용하는 단계다.
- 검증
  - 데이터 마이닝의 결과로 얻은 모델에 대한 평가 및 실제 없무에서 적용 가능한지 성능을 검증하는 단계다.

2) 데이터 분할

데이터 분할

데이터를 훈련용, 검정용, 평가용의 세가지 데이터로 분할한다.
훈련용 데이터: 모델을 구출하기 위해 활용됨
검정용 데이터: 구축된 모델이 적합한지 검증함

평가용 데이터: 최종적으로 구축된 모델의 성능을 평가하는데 사용함

- 참고
  ∙ 파라미터(매개변수) : 모델이 구축되는 과정에서 사람의 개입이 없이 박견되는 최적의 값으로 회귀분석의 회귀계수, 인공신경망의 가중치 등을 예로 들 수 있다.
  ∙ 하이퍼파라미터(초매개변수) : 모델 구축 외적인 요소로 분석 수행자가 찾아주어야 하는 최적의 값으로 뒤에서 배우게 될 인공신경망의 은닉 층의 수, 은닉 노드의 수, k-NN의 k값을 예로 들 수 있다.

데이터 분할을 통한 검증
- 홀드아웃
  - 전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식이다.
- k-Fold 교차검증(Cross-Validation)
  - 전체 데이터셋을 k개의 집단으로 구분한 뒤 k-1개를 훈련용 데이터로, 나머지 1개를 평가용 데이터로 사용하여 구축된 k개의 모델을 종합하여 최종 모델을 구축하는 방법이다.
- 붓스트랩
  - 표본을 다시 추출하는 방법의 일종이다.
  - 항상 관측된 데이터로부터 복원추출하며, 추정의 신뢰성을 평가하는데 사용된다.
  - 데이터셋의 분포가 고르지 않은 경우에 사용될 수 있으며, 과적합을 줄이는 데 도움이 된다.
- 계층별 k-겹 교차 검증
  - 불균형 데이터를 분류하는 무제에서 사용하는 방법으로 작동 방식은 k-폴드 교차검증과 동일하다.

2. 분류 분석

1) 로지스틱 회귀분석

로지스틱 회귀분석
- 독립변수의 선형결합을 이용해 사건의 발생 가능성을 예측하는 분석방법으로 종속변수(y)가 범주형 변수일 때 사용가능하다.
로직스틱 회귀분석의 변수
- 종속변수가 속할 수 있는 집단이 두 개로 이진분류가 기본이며, 세 개 이상의 집단을 분류하는 경우 이를 '다중 로지스틱 회귀분석'이라 한다.
- 독립변수가 연속형이면서 종속변수가 범주형일 때 가능하다.
- 독립변수가 어떤 값을 가지든 상관없이 종속변수는 확률값을 가진다.

2) 로지스틱 회귀분석의 알고리즘

오즈(Odds)
- 오즈 : 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 값
- 오즈의 한계 : 음수를 가질 수 없다는 것이고, 확률값과 오즈의 그래프는 비대칭성을 띤다는 것
로짓변환
- 로짓변환 : 오즈의 한계를 극복하기 위해 오즈에 로그값을 취한 것
- 오즈의 범위가 무한대에서 확장되며 확률과 로짓값의 그래프는 성공확률 0.5를 기준으로 대칭 형태를 띠게 된다.
시그모이드 함수
- 시그모이드 함수 : 로지스틱 회귀분석과 인공신경망 분석에서 활성화 함수로 활용되는 함수
- 로짓 함수와 역함수 관계

3) 의사결정나무

의사결정나무
- 개요
  - 자료를 학습하여 특정 분리 규칙을 찾아내고, 그에 따라 몇 개의 소집단으로 분류하는 분석 방법
  - 데이터의 어떤 기준을 바탕으로 분류 기준값으로 정의하는지가 알고리즘의 성능에 큰 영향을 미친다. 올바른 분류를 위해서는 상위 노드에서 하위 노드로 갈수록 집단 내에서는 동질성이, 집단간에 이질성이 커져야 한다.
- 구성요소
  - 종속변수가 연속형인 회귀트리와 종속변수가 이산형인 분류트리로 구분된다.
- 의사결정나무의 활용
  - 세분화: 비슷한 특성을 가진 그룹별로 분할
  - 분류: 종속변수의 범주를 몇 개의 등급으로 분류
  - 예측: 데이터들로부터 규칙을 찾아내어 이를 예측에 활용
  - 차원축소 및 변수선택: 여러 개의 독립변수들 중에서 종속변수에 큰 영향을 끼치는 변수를 선택
  - 교호작용: 여러 개의 독립변수들을 결합하여 종속변수에 작용하는 규칙을 파악, 범주형 변수를 병합 또는 연속형 변수를 몇 개의 등급으로 이산화
- 의사결정나무의 특징
분석 과정
- 성장
  - 성장단계: 각 마디에서 최적의 분리 규칙을 찾아 의사결정나무를 형성하고 적절한 정지규칙을 만족하면 나무의 성장을 중단한다.
  - 분리기준: 데이터를 분류하는 방법으로 불순도를 사용한다. 불순도는 자료들의 범주가 한 그룹 안에 얼마나 섞여 있는지를 나타내는 측도로서 분류가 잘 되어 하나의 범주로만 구성되어 있으면 불순도 값을 작고, 다양한 범주의 데이터로 구성되어 있으면 불순도 값은 크다.
  - 정지규칙: 분석자가 설정한 특정 조건하에 현재의 마디에서 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 정지시키다.
- 가지치기
  - 데이터 마이닝 기법 중 하나로 모형이 복잡한 경우 과적합이, 너무 단순한 경우 과소적합이 발생한다.
- 타당성 평가
  - 형성된 의사결정나무를 평가하는 단계다.
- 해석 및 예측
  - 구축된 의사결정나무를 예측에 적용하고 이를 해석하는 단계다.

4) 앙상블 분석

앙상블 분석 개요
- 모형의 예측력을 높이고자 여러 번 의 데이터 분할을 통하여 구축된 다수의 모형을 결합하여 새로운 모형을 만드는 방법이다.
앙상블 분석의 종류
- 배깅
  - Bootstrap Aggregating의 줄임말
  - 여러 개의 붓스트랩을 집계하는 알고리즘
    - 붓스트랩(Bootstrap) : 원본 데이터와 같은 크기의 표본을 랜덤복원추출한 샘플 데이터를 의미하며, 특히 모델 구축을 위한 훈련 데이터를 가리킨다.

3. 군집 분석

4. 연관 분석

참고 블로그
시그모이드 그래프

김민수

이전 포스트

[ADsP] 3과목 - 데이터분석(정형 데이터 마이닝)

ADsP

📌 3장. 정형 데이터 마이닝

1. 데이터 마이닝

1) 데이터 마이닝 개요

2) 데이터 분할

2. 분류 분석

1) 로지스틱 회귀분석

2) 로지스틱 회귀분석의 알고리즘

3) 의사결정나무

4) 앙상블 분석

3. 군집 분석

4. 연관 분석

[ADsP] 3과목 - 데이터분석(통계 분석)

0개의 댓글