2과목 빅데이터 탐색

SOOYEON·2022년 4월 7일

빅데이터분석기사

목록 보기

4/36

데이터 결측값 처리

결측값은 입력이 누락된 값

종류 : 완전 무작위 결측, 무작위 결측, 비 무작위 결측

완전 무작위 결측

변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우

ex) 수입에서 결측 발생 시 응답자와 무응답자 간에 어떤 차이가 없다면 응답자의 수입에 관한 분포와 무응답자 수입에 관한 분포가 같음

무작위 결측

누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우

누락이 전체 정보가 있는 변수로 설명이 될 수 있음을 의미 (누락이 완전히 설명될 수 있는 경우 발생)

ex) 남성은 우울증 설문 조사에 기재할 확률이 낮지만 우울함의 정도와는 상관없는 경우

비 무작위 결측

누락된 값(변수의 결과)이 다른 변수와 연관 있는 경우

ex) 소득에 관한 무응답이 소득 자체와 관련 (세금에 대한 정보가 주어졌더라도 소득이 높은 사람이 더 높은 무응답률을 보이는 경우)

처리방법
단순 대치법, 다중 대치법

↓

결측값 처리 방법

단순 대치법

완전 분석법
- 불완전 자료 모두 무시
- 관측된 자료 중 일부를 무시하게 되어 효율성 상실, 통계적 ㅊ론의 타당성 문제 발생
평균 대치법
- 데이터의 평균, 중앙값, 최빈값 등으로 결측값 대치
- 결측 값 발생이 다른 변수와 관걔가 있는 경우 유용 (비조건부/조건부 평균 대치법)
단순 확률 대치법
- 평균 대치법에 적절한 확률값을 부여하여 대치하는 방법
- 평균 대치법에서 추정한 표준오차의 과소추정문제를 보완하고자 고안됨
- Hot-Deck, Cold-Deck, 혼합 방법이 있음
  - Hot-Deck : 현재 진행 중인 연구에서 비슷한 성향을 가진 응답자의 자료로 대체
  - Cold-Deck : 외부 출처 또는 이전의 비슷한 연구에서 대체할 자료를 가져옴

다중 대치법

단순 대치법을 한 번이 아닌 m번 수행하여 m개의 가상적 완전 자료를 만듦

여러 개의 대치된 표본이 생성, 같은 값으로 결측 자료를 대치할 수 없음

추정량 표준오차의 과소추정 및 계산의 난해성 문제를 가지고 있음

불균형 데이터 처리

불균형 데이터 처리 기법 : 과대 표집, 과소 표집, 임곗값 이동 (Cut-Off Value Moving), 앙상블 (Ensemble) 기법

과소 표집 (Under Sampling)

다수 클래스의 데이터를 일부만 선택하여 데이터의 비율을 맞추는 방법
과소 표집 기법 : 랜덤 과소 표집, ENN, 토멕링크 방법, CNN, OSS

랜덤 과소 표집

무작위로 다수 클래스 데이터의 일부만 선택하는 방법

ENN (Edited Nearest Neighbor)

소수 클래스 주위에 인접한 다수 클래스 데이터를 제거

토멕 링크 방법 (Tomek Link Method)

토멕 링크
클래스를 구분하는 경계선 가까이에 존재하는 데이터

→ 다수 클래스에 속한 토멕 링크를 제거하는 방법

CNN Condensed Nearest Neighbor

다수 클래스에 밀집된 데이터가 없을 때까지 데이터를 제거하여 데이터 분포에서 대표적인 데이터만 남도록 하는 방법

OSS One Sided Selection

토멕 링크 방법과 CNN 기법의 장점을 섞은 방법
다수 클래스의 데이터를 토멕 링크 방법으로 제거한 후, CNN을 이용하여 밀집된 데이터 제거

과대 표집 (Over-Sampling)

소수 클래스의 데이터를 복제 또는 생성하여 데이터의 비율을 맞추는 방법
과대 표집 기법 : 랜덤 과대 표집, SMOTE, Borderline-SMOTE, ADASYN

랜덤 과대 표집

무작위로 소수 클래스 데이터를 복제하여 데이터의 비율을 맞추는 방법

SMOTE ; Synthetic Minority Over-sampling TEchnique

소수의 클래스에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직선을 만든 후, 그 위에 데이터를 추가하는 방법

Borderline-SMOTE

다수 클래스와 소수 클래스의 경계선에서 SMOTE를 적용하는 방법

ADASYN ; ADAptive SYNthetic

모든 소수 클래스에서 다수 클래스의 관측 비율을 계산하여 SMOTE를 적용하는 방법

임곗값 이동 Cut-Off Value Moving

임곗값을 데이터가 많은 쪽으로 이동시키는 방법

학습 단계에서는 변화 없이 학습하고 테스트 단계에서 임곗값을 이동한다.

앙상블 기법

같거나 서로 다른 여러 가지 모형들의 예측/ 분류 결과를 종합하여 최종적인 의사 결정에 활용하는 기법

여러 개의 학습 모델을 훈련, 투표 및 평균을 통해 최적화된 예측을 수행하고 결정
주어진 자료로부터 여러 개의 예측 모형을 만든 후 조합하여 하나의 모형을 만드는 방법
다중 모델 조합, 분류기 조합이 있다.
과소 표집, 과대 표집, 임곗값 이동을 조합하여 앙상블을 만들 수 있다.

확률분포

확률 Probability

비슷한 현상이 반복해서 일어날 경우 어떤 사건이 발생할 가능성을 0과 1 사이의 숫자로 표현하는 방법

확률의 계산 : 사건 Event / 표본공간 Sample Space

조건부 확률 Conditional Probability

어떤 사건이 일어난다는 조건에서 다른 사건이 일어날 확률
두 개의 사건 A와 B에 대해 사건 A가 일어난다는 선행조건 아래에 사건 B가 일어날 확률

사건 A가 조건으로 일어났을 때 사건 B의 조건부 확률 : P(B|A)
사건 B가 조건으로 일어났을 때 사건 A의 조건부 확률 : P(A|B)

전 확률의 정리 Law of Total Probability

나중에 주어지는 사건 A의 확률을 구할 때 그 사건의 원인을 여러 가지로 나누어서, 각 원인에 대한 조건부 확률 P(A|B)와 그 원인이 되는 확률 P(B|A)의 곱에 의한 가중합으로 구할 수 있다는 법칙

베이즈 정리 Bayes' Theorem

어떤 사건에 대해 관측 전 (사전 확률) 원인에 대한 가능성과 관측 후 (사후 확률)의 원인 가능성 사이의 관계를 설명하는 확률 이론

베이즈 확률

어떤 사건 B가 서로 배반인 A1, A2, A3, ..., An 중 어느 한 가지 경우로 발생하는 경우 실제 B가 일어날 때 Ai 가 발생할 확률

체비셰프 정리 Chebyshev 2-88

임의의 양수 k에 대하여 확률변수가 평균으로부터 k배의 표준편차 범위 내에 있을 확률에 대한 예측값을 보수적으로 제공하는 정리
체비셰프의 정리는 관측값들의 분포에 상관없이 성립하지만, 확률에 대한 하한값만을 제공할 뿐이다.

공식
확률변수 X가 표준편차의 k배 범위 내에 있을 확률은 적어도 1-(1/k²) 이다.
k : 임의의 양수
ч: 확률변수 X의 평균
б : 확률변수 X의 표준편차

최대우도법 Maximum Likelihood Method 2-97

어떤 확률변수에서 표집한 값들을 토대로 그 확률변수의 모수를 구하는 방법

SOOYEON

이전 포스트