Processing math: 100%

目錄

我們在消息理論測量一段資訊所包含的資訊量其中一種會使用Entropy來計算。

定義

X作為一個discrete R.V. 並且表示成P(X)可以視作:

Hb(X)=xXP(x)logbP(x)=E[logbP(X)]=Ep[logb1P(x)]

  1. b如果選擇2就表示我們在測量bits,若b是e則表示在測量nats,所以這裡沒有直接寫2是因為可以透過換底公式來換成別的格式。
    換底公式: logbP(x)=logbalogaP(x),因此,Hb(X)=(logba)Ha(X),不過我們在消息理論內幾乎都是在談b=2的情況。
  2. H(X)測量的是X剩餘的不確定性,把x所有的可能性平均起來
  3. H(X)不是一個隨機變數X的function,而是針對PMF隨機變數X分佈function進行量測
  4. 根據limx0xlogx0,定義 0log0=0,因此如果新增了0的機率並不會讓entropy有任何變化

範例

假設X有Bernoulli(p)的分佈,i.e., x={H,with probabilityPT,with probability1-P 在投擲硬幣的時候呈現這樣的分佈

H(X)=PlogP(1P)log(1P)H(P)binaryentropy

我們觀察這個分佈圖

  1. H(P)0 在P=0或是1的情況時會發生 (在結果變成deterministic的時候發生代表全部的不確定性已經消失)
  2. H(P)1P=12的情況下會發生 (如果是一個公平的擲硬幣0跟1兩者最高機率都會是12的最大不確定性)
  3. H(P)=H(1P) (P要稱為head或是tail都不重要,這裡要表達的是只要結果是0跟1的事件都可以使用這種方法)

另外有一些定理存在

  1. (Non-negativeness): H(X)0 成立若且唯若X是一個deterministic
  2. (Maximum entropy): 讓X是一個discrete隨機變數屬於有限的alphabet X,存在H(X)log|X若且唯若X有uniform distribution的特性在X之上

證明:

  1. (Non-negativeness): 0P(x)11P(x)1log1P(x)0,xX
  2. (Maximum entropy): 讓X=xX,P(x)>0X, 可以得到H(X)log|X|H(X)log|X|=xXP(x)logP(x)log|X|=xXP(x)logP(x)log|X|xXP(x)=xXP(x)log1P(x)|X|=log2exXP(x)ln1P(x)|X|log2exXP(x)(1P(x)|X|1)=log2e(xX1|X|xXP(x)=0

等式成立若且唯若

  1. X=X, i.e., P(x)>0xX
  2. 1P(x)|X|=1P(x)=1|X|xX
    i.e., P(x)=1|X|xX

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *