Entropy = 정보에 필요한 최소 자원량(bits), 실제값(p) cross entropy = 예측값(q) 정보의 량 : 예측값 > 실제값 KD divergence = 실제값(q) - 예측값(p)
발생확률이 높을 수록 엔트로피가 낮고 불확실성이 낮다 -> 즉 안정적이고 예측가능하다. 엔트로피가 높을 수록 정보가 많고 불확실성이 높고 확률이 낮다 -> 즉 불안정하고 예측이어렵다.