微分熵

微分熵是消息理論中的一個概念，是從以離散隨機變數所計算出的夏農熵推廣，以連續型隨機變數計算所得之熵，微分熵與離散隨機變數所計算出之夏農熵，皆可代表描述一信息所需碼長的下界，然而，微分熵與夏農熵仍存在著某些相異的性質。

定義

令 $X$ 為一連續型隨機變數，其機率密度函數為 $f_{X}(x)$ ，其中 $X$ 的支撐集為 $S=\{x\in X|f_{X}(x)>0}\$ 。微分熵 $h_{X}(x)$ :

$h_{X}(x)=-\int _{S}f_{X}(x)log(f_{X}(x))dx$ 。

與夏農熵為類比，計算夏農熵之算式中的 $\log$ 通常以2為底，而微分熵為計算方便，常以 $ln$ 計算後再轉換為 $log_{2$ 的結果。微分熵與夏農熵最大的不同點在於 $f_{X}(x)$ 可為大於1的數值，此時可能會造成 $h_{X}(x)$ 為負值，而夏農熵 $H_{X}(x)$ 恆不為負。

例如， $X$ 為均勻分布 $U(0,a),a<1$ ：

$f_{X}(x)=$ $1 \over a$ $;h_{X}(x)=-\int \limits _{0}^{a$ $1 \over a$ $ln$ $1 \over a$ $dx$

$h_{X}(x)=ln(a)$ $<0$

性質

相對熵恆正

與夏農相對熵性質相同，恆正。

$-{\displaystyle D(f||g)=\int flog{g \over f$

$\leq log\int f{g \over f$ (延森不等式)

$\leq 0$ 。

鏈式法則

一次觀測所有隨機變數所測得的聯合熵，與個別接收隨機變數後計算的條件熵總和相同，即觀測順序與間隔不影響微分熵。

$h(X_{1},X_{2},...,X_{n})=\sum _{k=1}^{n}h(X_{i}|X_{1},X_{2},...,X_{i-1})$ 。

平移

隨機變數的平移不影響微分熵，因為固定的平移不會增加隨機變數的方差。

$h(X+c)=h(X)$

縮放

將隨機變數縮放會增加其方差，微分熵亦會隨之增加。

$h(AX)=h(X)+log|det(A)|$

上界

期望值為0，方差為 $\sigma ^{2$ 且值域為 $R$ 之隨機變數 $X$ 的微分熵，其上界為常態分佈 $N(0,\sigma ^{2})$ 的微分熵。

$h(X)\leq {1 \over 2}log(2\pi e\sigma ^{2})$

估計誤差

隨機變數 $X$ 與其估計子 ${\widehat {X$ 之均方誤差存在下界，當 $X$ 為常態分佈且 ${\widehat {X$ 為無偏估計子時，等號成立。

$E[(X-{\widehat {X})^{2}]\geq {1 \over {2\pi e}e^{2h(X)$

漸進等分性

離散隨機變數的夏農熵中，獨立同分布的隨機變數序列，在漸進等分性(Asymptotic equipartition property)之下其機率質量函數 $p(X_{1},X_{2},...,X_{n})$ 趨近於 $2^{-nH(X)$ 。

連續型隨機變數之漸進等分性：

$-{1 \over n}log(f(X_{1},X_{2},...,X_{n}))\rightarrow h(X)$

典型集

典型集(Typical set)定義如下

$A_{\epsilon }^{(n)}=\{(x_{1},x_{2},...,x_{n})\in S^{n}:|-{1 \over n}logf(x_{1},x_{2},...,x_{n})-h(X)|\leq \epsilon }\$ , $\epsilon >0$

體積

集合包含於 $R^{n$ , $A\subset R^{n$ ，其體積(Volume) $Vol(A)$ 定義如下:

$Vol(A)=\int \limits _{A}dx_{1}dx_{2}...dx_{n$ 。

典型集 $A_{\epsilon }^{(n)$ 的體積有以下性質:

1. $Vol(A_{\epsilon }^{(n)})\leq 2^{n(h(X)+\epsilon )$

2. $Vol(A_{\epsilon }^{(n)})\geq (1-\epsilon )2^{n(h(X)-\epsilon )$

證明

1.

由 $-{1 \over n}log(f(X_{1},X_{2},...,X_{n}))\rightarrow h(X)$ ，

可得：

$1=\int _{S^{n}f(x_{1},x_{2},...,x_{n})dx_{1}dx_{2}...dx_{n$

$\geq \int _{A_{\epsilon }^{(n)}f(x_{1},x_{2},...,x_{n})dx_{1}dx_{2}...dx_{n$

$\geq \int _{A_{\epsilon }^{(n)}2^{-n(h(X)+\epsilon )}dx_{1}dx_{2}...dx_{n$

$=2^{-n(h(X)+\epsilon )}\int _{A_{\epsilon }^{(n)}dx_{1}dx_{2}...dx_{n$

$=2^{-n(h(X)+\epsilon )}Vol(A_{\epsilon }^{(n)})$

2.

當n足夠大時， $Pr(A_{\epsilon }^{(n)})>1-\epsilon$ ，

因此：

$1-\epsilon \leq \int _{A_{\epsilon }^{(n)}f(x_{1},x_{2},...,x_{n})dx_{1}dx_{2}...dx_{n$

$\leq \int _{A_{\epsilon }^{(n)}2^{-n(h(X)-\epsilon )}dx_{1}dx_{2}...dx_{n$

$=2^{-n(h(X)-\epsilon )}\int _{A_{\epsilon }^{(n)}dx_{1}dx_{2}...dx_{n$

$=2^{-n(h(X)-\epsilon )}Vol(A_{\epsilon }^{(n)})$

量化

我們可以將機率密度函數量化後，以夏農熵來計算微分熵。首先將連續隨機變數X以 $\Delta$ 分為數個區間，根據均值定理， $x_{i$ 滿足：

$f(x_{i})\Delta =\int _{i\Delta }^{(i+1)\Delta }f(x)dx=p_{i$

量化後的隨機變數 $X^{\Delta$ :

$X^{\Delta }=x_{i},i\Delta \leq X<(i+1)\Delta$

夏農熵為:

$H(X^{\Delta })=-\sum _{-\infty }^{\infty }f(x_{i})\Delta log(f(x_{i}))-log\Delta$

意即，當 $\Delta \rightarrow 0$ ， $h(f)=h(X)$ 。

例子：

1.

對X做n位元量化 $X\sim U(0,{1 \over 8})$ 。

$H(X^{\Delta })=-3+n$

上式表示，若我們想得到n位元精確度，則需要n-3個位元來表示。

2.

對X做n位元量化 $X\sim N(0,{\sigma }^{2})$ 。

$H(X^{\Delta })={1 \over 2}log(2\pi e\sigma ^{2})+n$

上式表示，若我們想得到n位元精確度，需要 ${1 \over 2}log(2\pi e\sigma ^{2})+n$ 個位元來表示。

最大熵

常態分佈

隨機變數 $X$ ， $X_{N$ 值域為 $(-\infty ,\infty )$ ，方差為 $\sigma ^{2$ ， $X$ 為任意分佈， $X_{N$ 為常態分佈，機率密度函數分別為 $f(x),g(x)$ 。

則 $h_{X}(X)\leq {1 \over 2}log(2\pi e\sigma ^{2})$

證明:

${\begin{aligned}0&\leq D(f||g)\\&=\int f(x)log({f(x) \over {g(x)})dx\\&=-h(X)-\int f(x)log(g(x))dx\\&=-h(X)+h(x)\end{aligned$

其中，

${\begin{aligned}-\int _{-\infty }^{\infty }f(x)log(g(x))dx&=\int _{-\infty }^{\infty }f(x)({1 \over 2}log(2\pi \sigma ^{2})+{1 \over 2}({x-\mu } \over \sigma })^{2})dx\\&={1 \over 2}log(2\pi e\sigma ^{2})\end{aligned$

指數分佈

隨機變數 $X$ ， $Y$ 值域為 $(0,\infty )$ ，期望值為 $\lambda$ ， $X$ 為任意分佈， $Y$ 為指數分佈，機率密度函數分別為 $f(x),g(x)$ 。

則 $h_{X}(X)\leq 1+log\lambda$ 。

證明:

${\begin{aligned}0&\leq D(f||g)\\&=\int f(x)log({f(x) \over {g(x)})dx\\&=-h(X)-\int f(x)log(g(x))dx\\&=-h(X)+h(Y)\end{aligned$

其中，

${\begin{aligned}-\int \limits _{0}^{\infty }f(x)log(g(x))dy&=-\int \limits _{0}^{\infty }f(x)(log\lambda +{x \over \lambda })dx\\&=1+log\lambda \end{aligned$

參考文獻

Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 1991 John Wiley & Sons, Inc, 1971. ISBN 0-471-20061-1

微分熵

定義

相關計算

條件熵

相對熵

互信息

性質

相對熵恆正

鏈式法則

平移

縮放

上界

估計誤差

漸進等分性

漸進等分性

典型集

體積

量化

例子：

最大熵

常態分佈

指數分佈

參考文獻