베이지안 모델과 전통적 모델의 단점

raqoon·2021년 8월 5일
2

Bayes_stats

목록 보기
1/5
post-thumbnail

해당 문서는 Coursera 강의 Bayesian Statistics: Techniques and Models
를 보고 공부한 것을 정리한 노트입니다.


1. Components of Bayesian Models


베이지안 모델은 세 가지의 구성물(Likelihood, Prior, Posterior)로 구성된다.
Likelihood=P(yθ)Likelihood = P(y|\theta)
  • Likelihood는 모수 θ\theta에 대한 (관측된)데이터의 확률분포라고도 볼 수 있다.
Prior=P(θ)Prior = P(\theta)
  • Prior는 사전확률분포라고도 하며, 모수 θ\theta의 확률분포를 나타낸다.
Posterior=P(θy)Posterior = P(\theta|y)
  • Posterior는 사후확률분포라 하며 data에 의해 조정된 확률분포를 나타낸다.



Posterior는 다음의 식으로 나타내볼 수도 있다.


Posterior=P(θy)=P(θ,y)P(y)Posterior=P(\theta|y)=\frac{P(\theta,y)}{P(y)}

조건부 확률 공식으로 위와 같이 사후확률분포를 나타낼 수 있다.
여기서 중요한 것은 분모에 존재하는 data의 marginal distribution을 다음과 같이 나타낼 수 있다는 것이다.

P(y)=P(θ,y)dθP(y)=\int{P(\theta,y)d}\theta

이 표현법이 중요한 이유는, 위의 posterior 공식을 다시 써 보면 이해가 된다.

Posterior=P(θy)=P(θ,y)P(y)=P(θ,y)P(θ,y)dθPosterior=P(\theta|y)=\frac{P(\theta,y)}{P(y)}=\frac{P(\theta,y)}{\int{P(\theta,y)d}\theta}
P(θ,y)=P(yθ)P(θ)P(\theta,y) = P(y|\theta)P(\theta)
Posterior=P(θ,y)P(θ,y)dθ=P(yθ)P(θ)P(yθ)P(θ)dθPosterior=\frac{P(\theta,y)}{\int{P(\theta,y)d}\theta}=\frac{P(y|\theta)P(\theta)}{{\int{P(y|\theta)P(\theta)}d\theta}}

이렇게 표현함으로써 우리는 posterior를 prior와 likelihood의 곱으로 표현할 수 있다는 것을 알게 되었다.

PosteriorPriorLikelihoodPosterior \propto Prior *Likelihood

2. Model Specification

다음과 같은 베이지안 모델이 있다고 하자.

Yiμ,σ2iidN(μ,σ2),i=1,...,nY_i|\mu,\sigma^2 \stackrel{iid}{\sim} N(\mu,\sigma^2), i=1,...,n
P(μ,σ2)=P(μ)P(σ2)P(\mu,\sigma^2)=P(\mu)P(\sigma^2)
μN(μ0,σ02)\mu \sim N(\mu_0,\sigma^2_0)
σ2Γ1(α0,β0)\sigma^2 \sim \Gamma^{-1}(\alpha_0,\beta_0)

이 모델은 다음과 같이 표현해 볼 수 있다고 한다.

동그라미 하나는 분포의 모수, 그리고 겹동그라미는 관측값을 의미한다. 위에서 복잡했던 수식들이 한눈에 이해된다. 직관적으로 관측값 yiy_i들이 분포의 모수 μ,σ2\mu, \sigma^2를 따른다고 볼 수 있다. 관측값을 둘러싼 네모는 Plate라고 하는데, yiy_i들이 같은 분포를 가지고 있다고 가정했을 때 저렇게 쓸 수 있다고 한다.

물론 분포가 얽혀 있는 경우에도 이 그림을 사용할 수 있다.

Yiμ,σ2iidN(μ,σ2),i=1,...,nY_i|\mu,\sigma^2 \stackrel{iid}{\sim} N(\mu,\sigma^2), i=1,...,n
μσ2N(μ0,σ02w0)\mu|\sigma^2 \sim N(\mu_0,\frac{\sigma^2_0}{w_0})
σ2Γ1(α0,β0)\sigma^2 \sim \Gamma^{-1}(\alpha_0,\beta_0)

이렇게 μ\muσ2\sigma^2를 따르는 분포에서도 다음과 같이 나타낼 수 있다.

3. Posterior Derivation

위의 베이지안 모델에서,

Yiμ,σ2iidN(μ,σ2),i=1,...,nY_i|\mu,\sigma^2 \stackrel{iid}{\sim} N(\mu,\sigma^2), i=1,...,n
μσ2N(μ0,σ02w0)\mu|\sigma^2 \sim N(\mu_0,\frac{\sigma^2_0}{w_0})
σ2Γ1(α0,β0)\sigma^2 \sim \Gamma^{-1}(\alpha_0,\beta_0)

관측값과 모수들의 Joint Distribution은 다음과 같이 표현할 수 있다.

P(y1,...,yn,μ,σ2)P(y_1,...,y_n,\mu,\sigma^2)

이것을 Chain rule of probability를 사용하여 펼쳐 보면,

P(y1,...,yn,μ,σ2)=P(y1,...,ynμ,σ2)P(μσ2)P(σ2)P(y_1,...,y_n,\mu,\sigma^2)=P(y_1,...,y_n|\mu,\sigma^2)*P(\mu|\sigma^2)*P(\sigma^2)
=i=1n[N(yiμ,σ2)]N(μμ0,σ02w0)Γ1(σ2α0,β0)=\prod_{i=1}^n[N(y_i|\mu,\sigma^2)]*N(\mu|\mu_0,\frac{\sigma^2_0}{w_0})*\Gamma^{-1}(\sigma^2|\alpha_0,\beta_0)

이렇게 된다. 이 식 전체는 베이즈 정리의 분자가 된다. 따라서 관측값과 모수들의 joint distribution은 data에 대한 모수들의 posterior distribution에 proportional 하다.

P(y1,...,yn,μ,σ2)P(μ,σ2y1,...,yn)P(y_1,...,y_n,\mu,\sigma^2) \propto P(\mu,\sigma^2|y_1,...,y_n)

4. Non-Conjugate Models

posterior distribution이 likelihood와 prior의 곱에 proportional 하다는 것은 앞에서 배웠다. 지금까지는 prior distribution과 posterior distribution이 모두 같은 분포일 경우만 보았다. 이것을 conjugate model이라고 한다. 하지만 둘이 서로 다른 모델에서는 어떻게 해야 할까?

다음의 베이지안 모델을 보자.

YiμiidN(μ,1),i=1,...,nY_i|\mu \stackrel{iid}{\sim} N(\mu,1), i=1,...,n
μt(0,1,1)\mu\sim t(0,1,1)

prior과 likelihood를 곱해서 사후 확률 분포를 계산해 보면...


P(μy1,...,yn)P(\mu|y_1,...,y_n)
i=1n[12πexp(12(yiμ)2)]1π(1+μ2)\propto \prod_{i=1}^n[\frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}(y_i-\mu)^2)]*\frac{1}{\pi(1+\mu^2)}
exp[12i=1n(yiμ)2]11+μ2\propto exp[-\frac{1}{2}\sum_{i=1}^n(y_i-\mu)^2]*\frac{1}{1+\mu^2}
exp[12(i=1nyi22μi=1nyi+nμ2]11+μ2\propto exp[-\frac{1}{2}(\sum_{i=1}^ny_i^2-2\mu\sum_{i=1}^ny_i+n\mu^2]*\frac{1}{1+\mu^2}
exp[n(yˉμμ22)]1+μ2\propto \frac{exp[n(\bar{y}\mu-\frac{\mu^2}{2})]}{1+\mu^2}

매우 어글리한 사후확률분포가 나왔다. 이 분포는 컴퓨터 없이는 적분하기도 어려울 뿐더러 지금까지 배운 베이즈 통계의 hierarchical 모델을 사용할 수 없다.
이러한 non-conjugate model에서의 약점은 베이지안 통계를 통계학에서 한동안 메인스트림이 되지 못하게 만들었다고 한다...(다음에 계속)


내용에 대한 질문, 잘못된 부분에 대한 지적 모두 환영합니다!

profile
안녕!

0개의 댓글