부스트캠프 week1 day3

Dae Hee Lee·2021년 8월 4일

BoostCamp

목록 보기

3/22

베이즈 통계학

어떤 식으로 모수를 추정하는지에 필요한 베이즈 정리를 알아보자.
오늘날 기계 학습을 이용한 예측 모형에 많이 사용되는 방법론 중 하나이다.

조건부 확률이란?

베이즈 통계학을 이해하기 위한 기본 개념
$P(A\cap B) = P(B)P(A|B)$

베이즈정리, 조건부확률을 이용하여 정보를 갱신하는 방법
$P(B|A)=P(B)\frac{P(A|B)}{P(A)}$

용어정리

$P(\theta|D)=P(\theta)\frac{P(D|\theta)}{P(D)}$

=> 사후확률 = 사전확률 X (가능도 / Evidence)

D : 새로 얻게된 데이터
$\theta$ : 가설, 모델링하는 이벤트, 모델에서 계산하고 싶은 모수
사후확률 : 데이터가 주어져있을 때, $\theta$ 가 일어날 확률
사전확률 : 데이터가 주어지지 않은 상황에서 $\theta$ 에 대해 사전에 정해진 확률(가설)
Evidence : 데이터 전체의 분포

예제

Covid의 발명률이 10%라고 알려져있다. 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1%라고 하자. 이 때, 질병에 걸렸다고 검진결과가 나온 사람이 정말 Covid에 감염되었을 확률은 얼마일까?

풀이

사전확률 : $P(\theta) = 0.1$
가능도 : $P(D|\theta) = 0.99, P(D|\neg\theta) = 0.01$
Evidence = $P(D) = \sum_{\theta} P(D|\theta)P(\theta)$
$=0.99 \times0.1+0.01\times0.9 = 0.108$
$P(\theta|D) = 0.1\times\frac{0.99}{0.108} \approx0.916$

오탐율(1종 오류가 일어날 확률)이 오르면 테스트의 정밀도(Precision)가 떨어진다.

Actual value는 사전확률이라고 생각할 수 있으며,

정밀도는 $P(\theta|D)=$ $\frac{TP}{TP+FP}$ 이다.
또한 오탐율(False Alarm)이 줄어들면 FP값이 줄어들게 되므로 정밀도가 올라가는 모습을 이해할 수 있다. 즉, 위의 Covid예제에서 어떤 사람이 실제 Covid가 아닐 때, 양성 진단을 받을 확률이 낮아지면 Covid 양성 진단을 받은 사람이 실제 Covid에 걸렸을 가능성이 올라간다는 뜻이다.

베이즈 정리를 통한 정보의 갱신

베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후 확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.

계속해서 업데이트하는 형태로 예측력을 향상시킬 수 있다.

예제2

앞서 Covid판정을 받은 사람이 두 번째 검진을 받았을 때도 양성이 나왔을 때 진짜 covid에 걸렸을 확률은?

풀이

이전의 결과의 사후확률인 $P(\theta|D)=0.524$ 를 새로운 사전확률로 갱신하고, 따라서 이를 기반으로 evidence가 새롭게 계산된다.
$P(D^*) = 0.99\times 0.524 + 0.1\times 0.476\approx 0.566$
따라서 갱신된 사후확률 $P(\theta|D^*) = 0.524\times \frac{0.99}{0.566} \approx 0.917$

조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계를 추론할 때 함부로 사용해서는 안된다.

인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다.

새로운 데이터의 유입은 조건부 확률 기반 예측모형의 예측 정확도를 낮출 가능성이 높다. 따라서 인과관계 기반 예측모형 역시 고려해야 할 것이다.

인과관계를 알아내기 위해서는 중첩요인(Cofounding factor) 의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다. 이 효과를 제거하지 않을 시 가짜 연관성(Spurious correlation)이 나올 수 있다.(simpson's paradox)

제거 방법 : intervention효과를 통해 중첩요인의 개입을 제거한다. 중첩 요인이 Z = (z1,z2,...,zn) 이고 예측하려는 클래스가 A, B일 때 A는 $\sum P(A,Z=z_i)P(Z=z_i)$ 로, B는 $\sum P(B,Z=z_i)P(Z=z_i)$ 로 계산을 해서 단순히 조건부확률로 계산한 것과는 다른 결과를 보인다.

Dae Hee Lee

Today is the day

이전 포스트

부스트캠프 week1 day2

다음 포스트