본 글은 위키백과
https://en.wikipedia.org/wiki/Conditional_entropy
에서 motivation 그리고 property 부분과 논문
Shannon, C. E. (1948). A mathematical theory of communication. The Bell system technical journal, 27(3), 379-423.ISO 690
및
Delgado-Bonal, A., & Marshak, A. (2019). Approximate entropy and sample entropy: A comprehensive tutorial. Entropy, 21(6), 541.
를 참고하였음을 밝혀드립니다.
위에서 언급한 것과 같이, ApEn은 와 가 서로 match하는 경우까지 고려하고 있습니다. 따라서, 완전히 불규칙한 신호라도 스스로 match가 되는 경우를 세기 때문에 bias가 생기게 됩니다. 즉, "entropy는 source가 얼마나 정보를 만들어내는지에 대한 measure이기 때문에, 자기 스스로 match하는지를 판별하는 것은 큰 의미가 없다"고 할 수 있습니다. 이를 해결한 것이 sample entropy()인데요, 이는 다음과 같이 정의됩니다.
이전 글에서 언급했던 것과 비슷하게 은 , 즉 data point 개에서 일어나는 사건에 대한 entropy에 대응되고, 는 data point 개에서 일어나는 사건에 대한 entropy 에 대응됩니다. 따라서 전자에서 후자를 뺀 것이 바로 이며, 이는 data point 개에서 matching이 된다는 정보가 주어졌을 때, 개의 data에서 match가 일어나는 conditional entropy 에 대응된다고 할 수 있습니다.
이 때, 은:
이며, 은 다음과 같습니다.
즉, 은 window size 인 block들에 대해, 자기 자신을 제외한 모든 macth의 개수를 센 것을 의미합니다. 주의해야 할 것은 마지막 block 을 세지 않았다는 점입니다. 왜냐하면 길이 짜리 block에 대해, 마지막 block의 경우 다음 data point가 없기 때문에, conditional probability가 자연스럽게 0이 되기 때문입니다. 따라서 첫 번째로, 은 기준이 되는 block 개를 세개 됩니다. 그 다음에는, 그 개의 block 중 자기 자신을 제외한 것들 중에 match가 있는지 살펴보는 것이기 때문에, 은 개의 block 중 match의 개수를 체크하게 되는 것입니다.
은:
이며, 은 다음과 같습니다.
은 마찬가지로, 이번엔 window length의 block을 살펴보는 것이기 때문에, 마지막 block을 뺄 필요가 없습니다. 그러므로 은 개의 기준이 되는 block을 확인합니다. 이 중, 자신을 제외한 것 중에 matching이 있는지 확인하는 과정이 필요하기 때문에, 은 자기 자신을 제외한 개의 block중 matching이 있는지 확인하게 됩니다.
저번 글과 이번 글에서는, 의 탄생 과정과 정의에 대해 살펴보았습니다. Data series의 sequential한 변화를 살펴보는 것이기 때문에 Bayesian procedure과 비슷하며, 단순히 무한히 많은 데이터에 대한 weak law of large numbers에 기댄 것이 아닌, dynamic system의 복잡도를 측정할 수 있는 좋은 도구이지만, trend를 빼줘야 하고 서로 다른 데이터의 복잡도를 비교하는데 제약이 많다는 단점이 있다는 사실을 우리는 알 수 있습니다. 하지만 Shannon이 정의했던 entropy의 정의와 굉장히 정합적이고, 현재 deterministic process의 복잡도를 측정할 수 있는 많은 measure과 비교했을 때 robust하다는 장점을 가지고 있기 때문에, 앞으로 생체 신호 및 다양한 신호 처리 및 분석 분야에 응용될 수 있을 것이라는 기대가 듭니다.
이상 글을 마치겠습니다. 감사합니다!