결측값은 입력이 누락된 값
변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우
ex) 수입에서 결측 발생 시 응답자와 무응답자 간에 어떤 차이가 없다면 응답자의 수입에 관한 분포와 무응답자 수입에 관한 분포가 같음
- 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우
- 누락이 전체 정보가 있는 변수로 설명이 될 수 있음을 의미 (누락이 완전히 설명될 수 있는 경우 발생)
ex) 남성은 우울증 설문 조사에 기재할 확률이 낮지만 우울함의 정도와는 상관없는 경우
누락된 값(변수의 결과)이 다른 변수와 연관 있는 경우
ex) 소득에 관한 무응답이 소득 자체와 관련 (세금에 대한 정보가 주어졌더라도 소득이 높은 사람이 더 높은 무응답률을 보이는 경우)
↓
완전 분석법
- 불완전 자료 모두 무시
- 관측된 자료 중 일부를 무시하게 되어 효율성 상실, 통계적 ㅊ론의 타당성 문제 발생
평균 대치법
- 데이터의 평균, 중앙값, 최빈값 등으로 결측값 대치
- 결측 값 발생이 다른 변수와 관걔가 있는 경우 유용 (비조건부/조건부 평균 대치법)
단순 확률 대치법
- 평균 대치법에 적절한 확률값을 부여하여 대치하는 방법
- 평균 대치법에서 추정한 표준오차의 과소추정문제를 보완하고자 고안됨
- Hot-Deck, Cold-Deck, 혼합 방법이 있음
- Hot-Deck : 현재 진행 중인 연구에서 비슷한 성향을 가진 응답자의 자료로 대체
- Cold-Deck : 외부 출처 또는 이전의 비슷한 연구에서 대체할 자료를 가져옴
- 단순 대치법을 한 번이 아닌 m번 수행하여 m개의 가상적 완전 자료를 만듦
- 여러 개의 대치된 표본이 생성, 같은 값으로 결측 자료를 대치할 수 없음
- 추정량 표준오차의 과소추정 및 계산의 난해성 문제를 가지고 있음
불균형 데이터 처리 기법 : 과대 표집, 과소 표집, 임곗값 이동 (Cut-Off Value Moving), 앙상블 (Ensemble) 기법
다수 클래스의 데이터를 일부만 선택하여 데이터의 비율을 맞추는 방법
과소 표집 기법 : 랜덤 과소 표집, ENN, 토멕링크 방법, CNN, OSS
무작위로 다수 클래스 데이터의 일부만 선택하는 방법
소수 클래스 주위에 인접한 다수 클래스 데이터를 제거
→ 다수 클래스에 속한 토멕 링크를 제거하는 방법
다수 클래스에 밀집된 데이터가 없을 때까지 데이터를 제거하여 데이터 분포에서 대표적인 데이터만 남도록 하는 방법
토멕 링크 방법과 CNN 기법의 장점을 섞은 방법
다수 클래스의 데이터를 토멕 링크 방법으로 제거한 후, CNN을 이용하여 밀집된 데이터 제거
소수 클래스의 데이터를 복제 또는 생성하여 데이터의 비율을 맞추는 방법
과대 표집 기법 : 랜덤 과대 표집, SMOTE, Borderline-SMOTE, ADASYN
무작위로 소수 클래스 데이터를 복제하여 데이터의 비율을 맞추는 방법
소수의 클래스에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직선을 만든 후, 그 위에 데이터를 추가하는 방법
다수 클래스와 소수 클래스의 경계선에서 SMOTE를 적용하는 방법
모든 소수 클래스에서 다수 클래스의 관측 비율을 계산하여 SMOTE를 적용하는 방법
임곗값을 데이터가 많은 쪽으로 이동시키는 방법
같거나 서로 다른 여러 가지 모형들의 예측/ 분류 결과를 종합하여 최종적인 의사 결정에 활용하는 기법
비슷한 현상이 반복해서 일어날 경우 어떤 사건이 발생할 가능성을 0과 1 사이의 숫자로 표현하는 방법
어떤 사건이 일어난다는 조건에서 다른 사건이 일어날 확률
두 개의 사건 A와 B에 대해 사건 A가 일어난다는 선행조건 아래에 사건 B가 일어날 확률
나중에 주어지는 사건 A의 확률을 구할 때 그 사건의 원인을 여러 가지로 나누어서, 각 원인에 대한 조건부 확률 P(A|B)와 그 원인이 되는 확률 P(B|A)의 곱에 의한 가중합으로 구할 수 있다는 법칙
어떤 사건에 대해 관측 전 (사전 확률) 원인에 대한 가능성과 관측 후 (사후 확률)의 원인 가능성 사이의 관계를 설명하는 확률 이론
어떤 사건 B가 서로 배반인 A1, A2, A3, ..., An 중 어느 한 가지 경우로 발생하는 경우 실제 B가 일어날 때 Ai 가 발생할 확률
임의의 양수 k에 대하여 확률변수가 평균으로부터 k배의 표준편차 범위 내에 있을 확률에 대한 예측값을 보수적으로 제공하는 정리
체비셰프의 정리는 관측값들의 분포에 상관없이 성립하지만, 확률에 대한 하한값만을 제공할 뿐이다.
공식
확률변수 X가 표준편차의 k배 범위 내에 있을 확률은 적어도 1-(1/k²) 이다.
k : 임의의 양수
ч: 확률변수 X의 평균
б : 확률변수 X의 표준편차
어떤 확률변수에서 표집한 값들을 토대로 그 확률변수의 모수를 구하는 방법