3과목 빅데이터 모델링

SOOYEON·2022년 4월 5일
0

빅데이터분석기사

목록 보기
3/36

3과목 빅데이터 모델링

의사결정나무 알고리즘

CART(Classification And Regression Tree) 이진 분할

CART 기법은 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류를 수행하는 알고리즘

가장 널리 사용되는 의사결정나무 알고리즘

가장 성취도가 좋은 변수 및 수준을 찾는 것에 중점

개별 입력변수뿐만 아니라 독립변수들의 선형 결합 중에서 최적의 분리를 구할 수 있음

C4.5 와 C5.0

가지치기를 사용할 때 학습자료를 사용하는 알고리즘

목표변수가 이산형이어야 함

불순도의 척도로 엔트로피 지수 사용

CART와는 다르게 각 마디에서 다지 분리(Multiple Split)가 가능하며 범주형 독립변수에 대해서는 범주의 수만큼 분리가 일어남

CHAID (Chi-squared Automatic Interaction Detection)

AID (Automatic Interaction Detection)를 발전시킨 알고리즘

가지치기 하지 않고 나무를 적당한 크기에서 성장을 중지하며 독립변수가 이산형 변수이어야 함

불순도의 척도로 카이제곱 통계량을 사용

분리 방법은 다지 분리(Multiple Split) 사용

분리 변수의 각 범주가 하나의 부 마디(Sub-Node)를 형성

QUEST

변수의 선택에서 범주의 개수가 많은 범주형 변수로의 편향이 심각한 CART의 문제점을 개선한 알고리즘

변수 선택 편향이 거의 없음

분리 규칙은 분리 변수의 선택과 분리점 선택의 두 단계로 나누어 시행

불순도의 척도로 카이제곱 통계량을 사용

분리 방법은 이진 분리(Binary Split) 사용

알고리즘, 목표 변수별 분류 기준

알고리즘이산형 목표변수연속형 목표변수
CHAID (다지분리) / QUEST (이진분리)카이제곱 통계량분산 분석(ANOVA)에서 F-통계량
CART (이진분리)지니지수분산의 감소량
C4.5, C5.0 (다지분리)엔트로피 지수-


분석과정

의사결정 나무 성장 → 가지치기 → 타당성 평가 → 해석 및 예측

의사결정 나무 성장

분석의 목적과 자료구조에 따라 적절한 분리 규칙 및 정지규칙을 지정, 분리 규칙을 찾아서 나무를 성장시키는 과정

가지치기

분류 오류를 크게 할 위험이 높거나 부적절한 추론규칙을 가지 또는 불필요한 가지를 제거하는 단계

타당성 평가

이익도표, 위험 도표 또는 평가 데이터를 이용하여 교차 타당성 등을 이용한 평가 수행 단계

해석 및 예측

구축된 의사결정 나무 모형을 해석하고, 분류 및 예측 모형을 설정하여 데이터의 분류 및 예측에 활용하는 단계


DBSCAN 알고리즘

  • 구성요소

    중심점, 이웃점, 경계점, 잡음점


시계열 모형

백색잡음 모형

ARIMA(0,0,0)

확률 보행 모형

ARIMA(0,1,0)

자기 회귀 모형

ARIMA(p,0,0)

이동평균 모형

ARIMA(0,0,q)

ARIMA(p,d,q)

  • p: AR모형과 관련
  • q: MA모형과 관련이 있는 차수
  • d: ARIMA 에서 ARMA 정상화할 때 몇 번 차분 했는지를 의미


매개변수

데이터 분석 모형을 정의할 때 모델 내부에서 확인이 가능한 변수

퍼셉트론 Perceptron

입력층과 출력층으로만 구성된 최초의 인공 신경망
1957년 코넬 항공 연구소의 프랑크 로젠블라트에 의해 고안됨

활성화 함수

계단함수, 부호함수, 선형함수, 시그모이드 함수, tanh 함수, ReLU함수

자카드(Jaccard) 계수

자카드 계수는 두 집합에 대한 합집합과 교집합에 대한 비(Proportion) 이다.

다변량 분석

여러 현상이나 사건에 대한 측정치를 개별적으로 분석하지 않고 동시에 분석하는 통계적 기법
각 변수를 개별적으로 분석하지 않고 동시에 분석하여 여러 변수 간의 관계성을 고려함

유형

다중 회귀 분석, 다변량 분산 분석, 판별 분석, 다차원 척도법, 군집 분석, 요인 분석 등

다차원 척도법 MDS ; MultiDimensional Scaling 3-122

개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화룰 시각적으로 표현하는 분석 방법

목적

  • 데이터 축소
    데이터에 포함되는 정보를 도출하기 위한 탐색 수단으로 활용

  • 의미 부여
    데이터가 만들어진 현상이나 과정에 고유의 구조로 의미를 부여

  • 기하적 표현
    찾아낸 패턴과 구조를 저차원의 공간에 기하적으로 표현

방법

  • 개체들의 거리는 유클리드 거리행렬을 이용
  • 스트레스 값을 이용하여 관측 대상들의 적합도 수준을 나타냄
  • 스트레스 값은 0에 가까울수록 적합도 수준이 완벽, 1에 가까울수록 나쁨

스트레스 값

다차원 분석에 의해 설명되지 않는 분산의 불일치 정도로서 대상간의 실제 거리와 추정된 거리 사이의 오차이다.

종류

  • 계량적 다차원 척도법
    • 데이터가 연속형 변수인 경우, 구간 척도나 비율 척도에 사용
    • 유클리드 거리 행렬을 이용하여 개체들 간 실제 거리를 계산, 개체들간 비유사성을 공간상에 표현
  • 비 계량적 다차원 척도법
    • 데이터가 순서 척도인 경우 사용
    • 개체들간 거리가 순서로 주어진 경우, 개체들 간 절대적 거리는 무시함
    • 순서척도를 거리의 속성과 같도록 변환하여 거리를 생성함

주성분 분석 PCA ; Principal Component Analysis

상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법

  • PCA는 변동 폭이 큰 축을 선택한다.
  • 차원축소는 고윳값이 높은 순으로 정렬해서, 높은 고윳값을 가진 고유벡터 만으로 데이터를 복원한다.

고윳값 Eigenvalue

고유벡터의 변환되는 스케일 정도를 나타내는 상숫값

고유벡터 Eigenvector

행렬 변환 결과가 자기 자신의 상수 배가 되는 0이 아닌 벡터

차원의 저주 해결 방법

주성분 분석, 다차원 척도법, t-SNE, LDA

0개의 댓글