엔트로피와 크로스 엔트로피

Taek goo Kim·2020년 5월 29일

처음 머신러닝/딥러닝을 스터디 했을 때, 정보이론과 Entropy에 대한 이해가 낮아 진도를 나가는데 어려움이 있었습니다. 사실, 어려움이라기 보다는 "일단 나중에 이해하자"라고 덮어두고 활용에만 촛점을 맞춘것이었지요. 이를 테면, 어떤 경우에 Entropy (사실 cross entropy)가 적용되는 지 등에 대한 정도만 익혔다고 볼수 있습니다.

지금도 깊이 있게 이해하는 것은 아니지만, 개인적인 기록 차원에서 정보이론에서의 Entropy 그리고 Cross Entropy를 간략히 정리하고자 합니다.

정보이론에서의 Entropy

우선 정보이론이 말하는 핵심 아이디어는 Shannon이 창안하였는데, 이를 압축하여 표현하면,

새롭고 불확실한 정보 또는 드물게 발생하는 사건 일수록 정보량이 많다

입니다.

우리가 다른 나라로 여행을 가거나 정착을 한다고 가정해보면, 낯선 곳에서 배워야할 것과 습득해야할 정보가 더 많다고 생각할 수 있습니다.

이 정보의 양을 측정하고자 하는 것이 Shannon의 Entropy입니다.

섀넌 Entropy의 특징

불확실할 수록 더 많은 정보가 있다는 점에서 착안하여 측정하는 방법도 고안되었습니다. 이를 수학적으로 표현하는데 다음과 같은 고려사항이 있습니다.
$P(x)$ 는 $x$ 가 발현될 확률. $I(x)$ 는 $x$ 의 정보량이라고 하면,

불확실성이 클수록 정보량이 크다: $P(x_1) > P(x_2) => I(x_1) < I(x_2)$ .
두 개의 별건의 정보량은 각 정보량의 합과 같다: $I(x_1, x_2) = I(x_1) + I(x_2)$ . 여기서 두 개의 독립적인 사건 $x_1$ , $x_2$ 의 발생 확률은 $P(x_1) * P(x_2)$ 인데, 정보량은 합산이기 때문에 이를 만족시키는 것은 $log$ 를 씌우는 것입니다. 즉, $I(x) = log \frac{1}{P(x)}$ 이 됩니다.
정보량은 bit로 표현된다: $I(x) = log_{2} \frac{1}{P(x)}$ .

여기서, Entropy는 각 사건의 발생확률과 각 사건의 정보량의 합산이 되기 때문에 아래의 공식이 되게 됩니다.

$H(X) = \sum\limits_{i=1}^{k} log_{2} \frac{1}{P_i} * P_i$

위 공식에 이상적인 주사위를 고려하여 Entropy를 계산해보면, 2.585의 Entropy를 가지며, 이는 주사위를 정보화하여 표현하기 위해서는 3bit가 필요함을 의미합니다.

만약 주사위 모양이 불균형하여 각 면마다 발생확률이 달라지게 되면, Entropy는 2.585보다 작은 값을 가지게 될 것입니다.(모든 사건이 균등한 발생확률을 가질 경우 가장 높은 Entropy를 갖게됩니다.)

머신러닝에서의 Cross Entropy

Entropy에 대해서 둘러보았으니, 머신러닝의 Cross Entropy에 대해서 정리해봅니다.

머신러닝 특히, 딥러닝에서는 분류문제에 대한 Cost Function으로 Cross Entropy를 사용하게 됩니다. 분류의 대상이 참/거짓 처럼 2개인 경우 binary cross entropy를 사용하고, 이미지넷과 같이 수많은 종류의 대상을 분류하는 경우에는 multi cross entropy를 사용합니다.

왜 Cross Entropy라고 부를까

$H(P, Q) = \sum\limits_{i=1}^{k} log_{2} \frac{1}{Q_i} * P_i$

위 공식이 Cross Entropy입니다.

섀년 Entropy와 형태는 거의 동일하지만, 정보량 부분에 $Q_i$ (예측확률)가 사용되고, 확률 부분에 $P_i$ (실제확률)로 사용되는 것이 유일한 차이점입니다. Cross Entropy라고 부르는 이유는, 아마도 두 $Q_i$ 와 $P_i$ 가 곱이 이루어 지기 때문에 Cross라는 이름이 붙은게 아닐까 싶습니다.

왜 분류문제의 Cost Function으로 사용될까

그 이유는 간단하게 말해서, Entropy와 Cross Entropy의 차이로부터 알 수 있는 것같습니다. 두 개의 수식이 동일해지는 점을 생각해보면, $Q_i$ 와 $P_i$ 가 같아질 때 Cross Entropy가 Entropy와 같아지게 될 것임을 알 수 있습니다.