테니스를 좋아하는 사람이 있다. 만약 이 사람이 날씨가 좋고 습도가 낮은 날에 테니스를 칠 확률은 얼마일까? 과거 데이터에 따라 학습을 시킨 모델을 기반으로 어떤 날씨가 주어졌을 때 이 사람이 테니스를 칠지 안 할지 판단하는 것이다.
조건부 확률과 베이즈 정리 기반의 지도학습 분류 모델이다.
나이브(Naive)는 순진,단순하다는 뜻으로, 예측에 사용되는 특성치(x)가 상호 독립적이라는 가정 하에 확률 계산을 단순화하기 위해 나이브라고 이름이 붙여졌다.
즉, 모든 특성치 간에 서로 아무런 상관관계가 없다는 가정을 한다. 스팸 메일 탐지와 같은 텍스트 분류에 많이 활용하는 알고리즘이다.
특정 사건이 발생했다는 가정하에 다른 사건이 발생할 확률
두 사건 A,B에 대하여 서로를 조건으로 하는 조건부 확률은 다음과 같이 정의된다.
이처럼 먼저 발생한 사건의 확률이 분모로, 두 사건이 같이 일어난 확률이 분자로 간다. 여기서 먼저 발생하는 사건의 확률이 0이어서는 안된다.
베이즈 정리는 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해 나가는 방법으로, 사전 확률과 조건부 확률을 토대로 사후 확률을 추론하는 과정이다.
베이지안 확률은 표본이 특정 사건에 포함된다는 주장에 대한 신뢰도를 의미한다.
확률 | 의미 |
---|---|
사전확률(Prior) | 어떤 사건이 발생한 확률 |
가능도(Likelihood) | 사건이 발생했다는 가정 하에 새로운 정보가 관측될 확률 |
사후확률(Posterior) | 새로운 정보에 의해 갱신된 사건이 발생할 확률 |
확률 연산이 불가능한 경우, 확률값을 보정한다.
훈련에 자주 사용된 데이터가 들어온 경우에는 분류기가 잘 잘동하지만, 훈련 데이터에 없던 값이나 이상치가 들어올 경우에는 정상적인 분류를 하지 못한다. 즉, 학습 데이터에 없는 신규 데이터는 조건부 확률이 0이므로 분류하지 못하기 때문에 라플라스 스무딩 기법으로 보정하여 분류한다.
학습 데이터에 없던 데이터의 빈도수에 매개변수 alpha를 더해 특징 x에 대한 우도가 0이 될 일이 없게 만드는 것이 라플라스 스무딩이다.
하지만, 라플라스 스무딩을 적용한 후에도 분류기가 월등하게 잘 분류한다고 는 할 수 없다. 값을 보정하여 잘 분류할 가능성을 조금이라도 증가시킨다는 점에 포인트를 둬야한다.
조건부 확률이 너무 작아져 비교가 불가능한 현상을 말한다. 확률은 항상 0에서 1 사이의 값을 가지며, 나이브 베이즈는 모든 확률들을 곱하기 때문에 언더플로우 현상이 나타난다. 이를 방지하기 위해 값에 로그를 취하기도 한다.