조건부 확률은 두 확률 P(A),P(B)은 아래의 수식을 따른다.
P(B|A)=P(A,B)/P(A) , P(A,B)=P(A)P(B|A)
P(스팸|입력텍스트) =P(스팸,입력텍스트)/P(입력텍스트)
P(정상|입력텍스트) =P(정상,입력텍스트)/P(입력텍스트)
P(입력텍스트) 는 생략가능하고, 결국 결합확률과 조건부확률은 비례한다.
다음으로 결확확률에 연쇄의 법칙을 적용해보면, 아래의 수식과 같다.
P(A,B,C,D)=P(A)P(B|A)P(C|A,B)P(D|A,B,C)
P(A,B,C,D)=P(A,B)P(C|A,B)P(D|A,B,C)
P(A,B,C,D)=P(A,B,C)P(D|A,B,C)
P(A,B,C,D)=P(A,B,C,D)
나이브 베이즈에서 조건부 독립성은 다음과 같이 표현될 수 있다. 카테고리 (여기서는 스팸메일, 정상메일 카테고리)가 주어질 경우 어떤 특성 F에 대해서는 조건부 독립니다.
즉, P(B|S,A)=P(B|S) , P(C|S,A,B)=P(C|S), P(D|S,A,B,C)=P(D|S)
그러니까 P(S|Xi) ∝ P(S,B,C,D)=P(S)P(B|S)P(C|S,B)P(D|S,B,C) 를 일반화 하자면,
P(S|Xi) ∝ P(S) Π P(Xi|S) 와 같다. (P(B|S), P(C|S), P(D|S) …)
예를 들어보면,
P(S|Xi) = P(S)P(로또|S)P(만남|S)P(부업|S)P(수익|S)
P(N|Xi) = P(N)P(로또|N)P(만남|N)P(부업|N)P(수익|N)
의 확률을 계산할 수 있을 때 두가지 사후 확률을 통해 입력된(?) 단어들이 포함되면 스팸인지 아닌지 구분할 수 있다.
다만, 입력된 데이터가 0건 이라면 확률 자체가 0으로 사라지기 때문에 일반화 오류를 범할 수 있다.
때문에 라플라스 스무딩이라는 걸 배워야하는데………
자꾸 까먹는 조건부확률을 예를 들어서 설명해봤다.