Data fixed(=random x)
Parameter vary(=random x)
Baysian 관점에서는 parameter가 확률 분포로 존재하며 이를 prior distribution이라고 한다.
Baysian 관점에서의 불확실성은 지식(정보)의 부족으로 인해 발생하며 epistemic uncertainty 라고한다.
prior distribution과 data를 통해 posterior distribution을 구할 수 있고 이 값을 prior distribution으로 갱신함으로써 지식(정보)의 습득으로 인해 불확실성을 낮출 수 있다.
X: 관측된 데이터, Observation을 뜻한다. 우리가 갖고 있는건 이거다!! (머신러닝에서는 트레이닝 데이터.....)
Θ: Hypothesis를 말하는데 데이터를 통해 추정하고자 하는 값이 되겠다. classification문제에서는 각 discrete한 클래스가 될 수 있고 linear regression의 경우 추정하려고 하는 weight들이 될 수 있다. 그 외에 추정하고자 하는 모든 문제에서 추정하고싶은 target값이 된다.
Marginal probability P(X): 데이터 X자체의 분포를 뜻한다.
A prior probability(사전확률) P(Θ): 사전에 가지고 있는 확률을 말한다. 이때 Θ는 mutually independent해야한다.예를들어. "하늘이 파랗다"/"하늘이 파랗지 않다" 이 두가지 가정은 독립이고 두 확률의 합이 1이 되어야한다. (사전적으로 hypothesis에 대한 지식이 없을 때는 그냥 hypothesis의 element들이 가질 확률이 모두 같다고 두자)
Likeihood(우도) P(X|Θ): hypothesis를 두고, 다시말해 어떤 가정을 한 상태의 데이터의 분포를 뜻한다.
A posterior probability(사후확률) P(Θ|X): observation이 주어졌을 때의 hypothesis의 분포를 뜻한다. 얘같은 경우에는 데이터 X의 영향을 반영하는 애다.
MLE 와 MAP 는 근본적으로 사후확률을 최대화하기 위해 사용되는 방법이다. 사후확률을 바로 구하기 어려울때 좌변의 값을 통해 구하겠다는 것인데, MLE는 가능도를 최대화 하여 그 목적을 달성하고 MAP는 가능도와 사전확률의 곱을 최대화하는 방법이다. MLE 는 사전확률에 대한 정보가 없을때 이유 불충분의 원리에 의해 사전확률이 균등한 확률을 가진다는 가정을 하기때문에 가능도만을 가지고 우변을 최대화 할 수 있다.