Entropy

iissaacc·2021년 12월 26일
0

Prologue

열역학에서 많이 쓰이지만 Claude Shannon의 정보이론에서는 정보량을 효율적으로 계량하는데 쓰인다. 결론부터 말하면 entropy는 자주 등장하지 않는 정보일수록, 그러니까 일어날 확률이 낮은 사건일수록 커진다.

Amount of Information

두 가지 예를 들어보자.

  1. 개가 사람을 물 확률: 99%99\%
  2. 사람이 개를 물 확률: 1%1\%

두 사건이 일어날 때마다 어디론가 정보를 보내야 할 때 같은 정보량으로 보내보자. 이를테면 0.1 같은 작은 수로 정하고 사건이 100번이 일어났다고 했을 때 총 정보량은 1010이다.(9.9+0.1)(9.9 + 0.1) 여기에서 정보량을 좀더 줄일 수 있는 방법이 있나? 하고 생각해보면 사건이 일어날 확률을 그냥 뒤집어서 사용하는 거다.

  1. 개가 사람을 물 확률의 정보량: 199\frac{1}{99}
  2. 사람이 개를 물 확률의 정보량: 11

이렇게 100번이 일어났다고 했을 때 총 정보량은 22로 확 줄어든다.(99199+1)(99\cdot\frac{1}{99} + 1)

이런 관점에서 entropy 점화식을 뜯어보자.

H(y)=iyilog(yi)1=iyilog(yi)H(y)=\sum_iy_i\log{(y_i)}^{-1}=-\sum_iy_i\log(y_i)

서로 다른 사건이 일어날 확률을 계산할 때는 각 사건이 일어날 확률을 곱셈으로 계산하고 이렇게 구한 확률들을 더해준다는 점을 알 수 있는데 정보량을 곱셈과 덧셈으로 계산하게 하는 방법이 log\log다.

그러면 확률이 다른 사건을 다뤄보자. 서로 독립인 두 사건의 확률이 각각 0.320.32, 0.640.64일 때 두 사건이 동시에 일어날 확률을 한 번 계산해보자.

0.320.64=2526=2(5+6)0.32 \cdot 0.64 = 2^{-5}\cdot2^{-6}=2^{-(5+6)}

곱과 합이 모두 보인다. 이 결과를 log\log로 바꿔서 역수로 만들어 주면 두 사건의 정보량을 잴 수있는 모양으로 바뀐다.

Think visually

좀 더 쉽게는 최소 저장단위는 0, 1로 표현하는 bit다. 그래서 밑을 2로 하는 log\log그래프를 그려준다.

f(x)=log2xf(x)=\log_2{x}

확률의 범위는 [0, 1][0,\ 1]이므로 그래프의 범위를 좁혀준다. 참고로 정보이론에서는 0log0=00\log0=0으로 정의한다.

f(x)=log2x,where 0x1f(x)=\log_2{x},\quad\text{where }0\le{x}\le{1}

상식적으로 "컵에 물이 200ml-200ml가 있다."라는 문장이 말이 안 되듯, 정보량 또한 (0, ](0,\ \infty]이므로 이 그래프를 뒤집어준다.

f(x)=log2x,where 0x1f(x)=-\log_2{x},\quad\text{where }0\le{x}\le{1}

그래프를 딱 보면 어떤 사건이 일어날 확률이 낮을 수록 정보량이 크고 높을수록 정보량이 낮다는 것을 알 수 있다.

Epilogue

그러면 한 걸음 더 나아가서 언제 entropy가 높은지 생각해보자. 3가지 종류의 동전을 2번 던진다고 해보자.

  1. 앞, 뒤가 나올 확률이 같은 동전
    log20.50.52=2-\log_2{0.5}\cdot0.5\cdot2 = 2
  2. 앞이 나올 확률이 0.7, 뒤가 나올 확률이 0.3인 동전
    log20.70.7log20.30.3=0.881-\log_2{0.7}\cdot0.7 - \log_2{0.3}\cdot0.3 = 0.881
  3. 앞이 나올 확률이 0.9, 뒤가 나올 확률이 0.1인 동전
    log20.90.9log20.10.1=0.468-\log_2{0.9}\cdot0.9 - \log_2{0.1}\cdot0.1 = 0.468

모든 사건이 일어날 확률이 같을 때 entorpy가 가장 높다. 이것도 썩 자연스럽다. 1번 동전을 다시 던질 때 앞면이 나올지 뒷면이 나올지 확실하게 말할 수 없지만 2번이나 3번동전을 던진다면 1번 동전에 비해 2번 동전이, 2번 동전에 비해 3번동전이 앞면이 나온다고 확실하게 말할 수 있다. 이런 측면에서 봤을 때도 entropy불확실성을 계량한다는 말도 된다.

0개의 댓글