微分熵是消息理論中的一個概念,是從以離散隨機變數所計算出的夏農熵推廣,以連續型隨機變數計算所得之熵,微分熵與離散隨機變數所計算出之夏農熵,皆可代表描述一信息所需碼長的下界,然而,微分熵與夏農熵仍存在著某些相異的性質。
定義
令
為一連續型隨機變數,其機率密度函數為
,其中
的支撐集為
。微分熵
:
。
與夏農熵為類比,計算夏農熵之算式中的
通常以2為底,而微分熵為計算方便,常以
計算後再轉換為
的結果。微分熵與夏農熵最大的不同點在於
可為大於1的數值,此時可能會造成
為負值,而夏農熵
恆不為負。
例如,
為均勻分布
:







相關計算
為
之聯合機率密度函數,其條件熵為:
。
又稱KL散度(Kullback–Leibler divergence),兩機率密度函數f、g的相對熵定義為:
。
兩連續型隨機變數的聯合機率密度函數為
,其互信息:
廣義而言,我們可以將互信息定義在有限多個連續隨機變數值域的劃分。
可參考連續互信息的量化。
性質
與夏農相對熵性質相同,恆正。
(延森不等式)
。
鏈式法則
一次觀測所有隨機變數所測得的聯合熵,與個別接收隨機變數後計算的條件熵總和相同,即觀測順序與間隔不影響微分熵。
。
平移
隨機變數的平移不影響微分熵,因為固定的平移不會增加隨機變數的方差。
縮放
將隨機變數縮放會增加其方差,微分熵亦會隨之增加。
上界
期望值為0,方差為
且值域為
之隨機變數
的微分熵,其上界為常態分佈
的微分熵。
估計誤差
隨機變數
與其估計子
之均方誤差存在下界,當
為常態分佈且
為無偏估計子時,等號成立。
漸進等分性
漸進等分性
離散隨機變數的夏農熵中,獨立同分布的隨機變數序列,在漸進等分性(Asymptotic equipartition property)之下其機率質量函數
趨近於
。
連續型隨機變數之漸進等分性:
典型集
典型集(Typical set)定義如下
,
體積
集合包含於
,
,其體積(Volume)
定義如下:
。
典型集
的體積有以下性質:
1.
2.
證明
1.
由
,
可得:
2.
當n足夠大時,
,
因此:
量化
我們可以將機率密度函數量化後,以夏農熵來計算微分熵。首先將連續隨機變數X以
分為數個區間,根據均值定理,
滿足:
量化後的隨機變數
:
夏農熵為:
意即,當
,
。
例子:
1.
對X做n位元量化
。
上式表示,若我們想得到n位元精確度,則需要n-3個位元來表示。
2.
對X做n位元量化
。
上式表示,若我們想得到n位元精確度,需要
個位元來表示。
最大熵
常態分佈
隨機變數
,
值域為
,方差為
,
為任意分佈,
為常態分佈,機率密度函數分別為
。
則
證明:
其中,
指數分佈
隨機變數
,
值域為
,期望值為
,
為任意分佈,
為指數分佈,機率密度函數分別為
。
則
。
證明:
其中,
參考文獻
- Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 1991 John Wiley & Sons, Inc, 1971. ISBN 0-471-20061-1