目錄
我們在消息理論測量一段資訊所包含的資訊量其中一種會使用Entropy來計算。
定義
讓X作為一個discrete R.V. 並且表示成P(X)可以視作:
Hb(X)=−∑x∈XP(x)⋅logbP(x)=E[−logbP(X)]=Ep[logb1P(x)]
- b如果選擇2就表示我們在測量bits,若b是e則表示在測量nats,所以這裡沒有直接寫2是因為可以透過換底公式來換成別的格式。
換底公式: logbP(x)=logba⋅logaP(x),因此,Hb(X)=(logba)⋅Ha(X),不過我們在消息理論內幾乎都是在談b=2的情況。 - H(X)測量的是X剩餘的不確定性,把x所有的可能性平均起來
- H(X)不是一個隨機變數X的function,而是針對PMF隨機變數X分佈function進行量測
- 根據limx→0xlogx→0,定義 0log0=0,因此如果新增了0的機率並不會讓entropy有任何變化
範例
假設X有Bernoulli(p)的分佈,i.e., x={H,with probabilityPT,with probability1-P 在投擲硬幣的時候呈現這樣的分佈
H(X)=−P⋅logP–(1−P)log(1−P)≜H(P)binaryentropy

我們觀察這個分佈圖
- H(P)≥0 在P=0或是1的情況時會發生 (在結果變成deterministic的時候發生代表全部的不確定性已經消失)
- H(P)≤1 在P=12的情況下會發生 (如果是一個公平的擲硬幣0跟1兩者最高機率都會是12的最大不確定性)
- H(P)=H(1−P) (P要稱為head或是tail都不重要,這裡要表達的是只要結果是0跟1的事件都可以使用這種方法)
另外有一些定理存在
- (Non-negativeness): H(X)≥0 成立若且唯若X是一個deterministic
- (Maximum entropy): 讓X是一個discrete隨機變數屬於有限的alphabet X,存在H(X)≤log|X若且唯若X有uniform distribution的特性在X之上
證明:
- (Non-negativeness): 0≤P(x)≤1⇒1P(x)≥1⇒log1P(x)≥0,∀x∈X
- (Maximum entropy): 讓X′=x∈X,P(x)>0⊆X, 可以得到H(X)–log|X|≤H(X)–log|X′|=−∑x∈XP(x)⋅logP(x)–log|X′|=−∑x∈X′P(x)⋅logP(x)–log|X′|⋅∑x∈X′P(x)=∑x∈X′P(x)⋅log1P(x)⋅|X′|=log2e⋅∑x∈X′P(x)ln1P(x)⋅|X′|≤log2e∑x∈X′P(x)⋅(1P(x)⋅|X′|−1)=log2e(∑x∈X′1|X′|–∑x∈X′P(x)=0
等式成立若且唯若
- X′=X, i.e., P(x)>0∀x∈X
- 1P(x)|X′|=1⇒P(x)=1|X′|∀x∈X′
i.e., P(x)=1|X|∀x∈X