[ML] Information Theory

KURTY·2023년 11월 26일
0

Machine Learning

목록 보기
7/15
post-thumbnail

Information Theory

엔트로피, 무질서도 → 정보량 ~ 확률 → cost: cross-entropy

Logistic regression

negative log likelihood를 유도하면 corss-entropy값이 된다. 수식으로는 다음과 같다

E(w)=logp(tw)=n=1Ntnlogyn+(1tn)log(1yn)E(\mathbf{w}) = -\log p(\mathbf{t} | \mathbf{w}) = -\sum_{n=1}^{N}{t_n\log y_n + (1-t_n)\log(1-y_n)}

cross-entropy는 두 개의 확률 분포로 정의된다. 여기서 두 확률 분포에 대한 차이를 측정하는 것이 cross-entropy이다. 즉, 두 확률분포가 똑같은 확률분포라면 해당 값이 최소가 되고, 달라질 수록 커지는 값이다.

Entropy

H(p)=E[logp]=p(x)logp(x)H(p) = \mathrm{E}[-\log p] = -\sum p(x)\log p(x)

Entorpy란 평균 정보량 혹은 평균 무질서도라고 칭한다. 확률(pp)가 높아질수록 무질서도가 작아지며, 확률(pp)가 작아질수록 무질서도가 커진다.

하나의 sample이 가지고 있는 정보가 작을 경우 무작위성이 낮아져 entropy값이 작아진다. 이는 다른 sample을 통해 얻을 수 있는 정보가 적다는 것을 의미한다.

보통 평균의 위치를 추정할 때는 랜덤으로 sample을 뽑아 sample들의 산술평균을 통해 추정하게 된다. sample의 수를 늘려가며 계산할 때, 평균값에 수렴하게 되는데 빠르게 수렴하게 되는 경우 정보가 작다고 생각할 수 있다. 즉, 하나의 sample이 추가될때마다 평균을 추정하는데 기여하는 정보를 정보량이라고 할 수 있다.

Entropy가 최대인 확률분포의 경우 discrete한 경우 uniform distribution이고, continuous의 경우 gaussian distribution이다.

Cross-entropy and relative entropy

위에서는 주어진 확률분포가 1개일 때 entropy를 알아봤다.

Cross-entropy는 두 개의 확률분포가 있을 때, 두 확률분포를 교차하여 표현한다. 이를 수식으로 나타내면 다음과 같다.

H(p,q)=Ep[logq]=p(x)logq(x)H(p, q) = -\mathrm{E}_p[\log q] = -\sum p(x) \log q(x)

따라서 보통은 H(p,q)H(q,p)H(p,q) \ne H(q, p)이다.

Relative entropy는 KLdivergence라고도 하는데, 무작위도를 구할 때, ppqq간의 ratio를 통해 구하게 된다.

수식으로 표현하면 다음과 같다.

DKL(pq)=Ep[logpq]=p(x)logp(x)q(x)={p(x)logp(x)p(x)logq(x)}\mathcal{D}_{\mathrm{K}\mathrm{L}}(p || q) = \mathrm{E}_p[\log \frac{p}{q}]= \sum p(x) \log \frac{p(x)}{q(x)} \newline = \sum\{p(x)\log p(x) - p(x)\log q(x)\}

Cross-entropy = entropy + relative entropy이며 수식은 다음과 같다

H(p,q)=H(p)+DKL(pq)DKL(pq)=H(p,q)H(p)=p(x)logq(x)+p(x)logp(x)=p(x)logp(x)q(x)H(p,q) = H(p) + \mathcal{D}_{\mathrm{K}\mathrm{L}}(p||q) \newline \mathcal{D}_{\mathrm{K}\mathrm{L}}(p||q) = H(p,q) - H(p) \newline = -p(x)\log q(x) + p(x)\log p(x) = p(x) \log \frac{p(x)}{q(x)}

보통 DKL(pq)0\mathcal{D}_{\mathrm{K}\mathrm{L}}(p || q) \ge 0인데, 0이 될 때는 p(x)=q(x)p(x) = q(x)인 경우이다. 즉, 두 확률분포의 차이의 정도이다.

cross-entropy가 최소가 될 때, relative entropy도 최소가 된다.

profile
진짜 공부하자

0개의 댓글