跳转至

第一讲 随机变量的熵和互信息


一、目标

  1. 掌握随机事件的自信息、互信息的概念及物理意义
  2. 了解条件事件的互信息与联合事件的互信息
  3. 掌握 香农熵的概念以及物理意义
  4. 了解随机变量的条件熵、联合熵及其核心性质
  5. 掌握随机变量互信息的定义以及核心性质

二、概率论基础

2.1 单随机变量的概率空间

对于离散随机变量\(X\),其概率空间定义为\(\{\mathcal{X}, q(x)\}\),其中: - \(\mathcal{X}\):随机变量\(X\)的取值空间,\(\mathcal{X}=\{x_{k} ; k=1,2, \cdots, K\}\),即\(X\)共有\(K\)个可能取值

  • \(q(x)\):事件\(\{X=x\}\)发生的概率,满足两条基本公理:
  • 非负性:\(q(x) ≥0\)
  • 归一性:\(\sum_{x \in \mathcal{X}} q(x)=1\)

2.2 二维随机变量的概率分布

对于二维随机变量\((X, Y)\),取值空间为笛卡尔积\(\mathcal{X} \times \mathcal{Y}\),联合概率分布为\(p(x, y)\),定义为:

\[p(x, y)=P\{X=x, Y=y\}\]

其中\(\mathcal{X}=\left\{x_{k} ; k=1,2, \cdots, K\right\}\)\(\mathcal{Y}=\left\{y_{j} ; j=1,2, \cdots, J\right\}\)

联合概率的核心性质

  1. 非负性:\(p\left(x_{k}, y_{j}\right) \geq 0\)
  2. 归一性:\(\sum_{k=1}^K \sum_{j=1}^J p\left(x_{k}, y_{j}\right)=1\)
  3. 边际概率(边缘概率):

    • \(Y\)的边际概率:\(\sum_{k=1}^K p\left(x_{k}, y_{j}\right)=\omega\left(y_{j}\right)\)

    • \(X\)的边际概率:\(\sum_{j=1}^J p\left(x_{k}, y_{j}\right)=q\left(x_{k}\right)\)

    • 条件概率(贝叶斯公式):
    \[p\left(y_{j} | x_{k}\right)=P\left(Y=y_{j} | X=x_{k}\right)=\frac{p\left(x_{k}, y_{j}\right)}{q\left(x_{k}\right)}\]
    \[p\left(x_{k} | y_{j}\right)=P\left(X=x_{k} | Y=y_{j}\right)=\frac{p\left(x_{k}, y_{j}\right)}{\omega\left(y_{j}\right)}\]

三、离散事件的信息度量

本部分聚焦单个随机事件的信息量化,是后续随机变量整体信息度量的基础。

3.1 事件的自信息

定义

对于概率空间\((\mathcal{X}, q(x))\),事件\(\{X=x_k\}\)的自信息定义为:

\[I\left(x_{k}\right)=-log _{a} q\left(x_{k}\right)\]

单位

  • 底数\(a=2\)时,单位为比特(bit),是信息论最常用单位;
  • 底数\(a=e\)时,单位为奈特(nat),多用于理论推导。

选择对数函数的核心原因

  1. 符合“概率越小,信息量越大”的直观认知;
  2. 对数函数是简单初等函数,易于数学分析与处理;
  3. 对数函数的可加性,符合现实中信息可叠加的经验。

自信息的物理本质(核心理解)

  1. 事件发生后,对外界(观察者)所提供的信息量;
  2. 事件发生前,外界为确证该事件发生所需要的信息量,也是为确证该事件需要付出的“代价”;
  3. 关键区分:自信息不代表事件本身的不确定性,事件本身是确定的(要么发生、要么不发生),自信息度量的是事件发生带来的信息增益。

自信息的核心性质

性质 数学表达 物理意义与例子
单调递减性 \(q(x_k)\)越大,\(I(x_k)\)越小 概率越小的事件,自信息越大。
例:预报“明天有暴雨”(低概率)的信息量,远大于“明天晴天”(高概率)
确定性事件自信息为0 \(q(x_k)=1\)时,\(I(x_k)=0\) 确定事件发生不会带来任何新信息。
例:“太阳从东方升起”的自信息为0
零概率事件自信息无穷大 \(q(x_k) \to 0\)时,\(I(x_k) \to \infty\) 极低概率事件一旦发生,会带来极大的信息量。
例:“彩票中头奖”的自信息趋近无穷大

3.2 事件的条件自信息

定义

对于二维随机变量\((X,Y)\),在事件\(\{Y=y_j\}\)发生的条件下,事件\(\{X=x_k\}\)的条件自信息定义为:

\[I\left(x_{k} | y_{j}\right)=-log p\left(x_{k} | y_{j}\right)\]

事件\(\{Y=y_j\}\)发生后,事件\(\{X=x_k\}\)再发生所能提供的新的、额外的信息量;也可理解为:已知\(Y=y_j\)的前提下,确证\(X=x_k\)发生所需要的信息量。

典例

设定:\(x_k\)为“杭州下雨”,先验概率\(q(x_k)=0.5\),因此\(I(x_k)=1\ \text{bit}\)

1. 正相关场景:\(y_j\) 为“上海下雨”

\[p(x_k|y_j) = 0.75\]

条件自信息:

\[I(x_k|y_j) = -\log_2 p(x_k|y_j) = -\log_2 0.75 = \log_2 \frac{4}{3}\ \text{bit}\]
  • \(I(x_k) > I(x_k|y_j)\),相关事件发生后,确证目标事件需要的额外信息量减少。

2. 负相关场景:\(y_j\) 为“上海晴天”

\[p(x_k|y_j) = 0.25\]

条件自信息:

\[I(x_k|y_j) = -\log_2 p(x_k|y_j) = -\log_2 0.25 = 2\ \text{bit}\]
  • \(I(x_k) < I(x_k|y_j)\),负相关事件发生后,确证目标事件需要的额外信息量增加。

3. 独立场景:\(y_j\) 为“北京下雨”

\[p(x_k|y_j) = q(x_k) = 0.5\]

条件自信息:

\[I(x_k|y_j) = -\log_2 p(x_k|y_j) = -\log_2 0.5 = 1\ \text{bit}\]
  • \(I(x_k) = I(x_k|y_j)\),独立事件的发生,不会为目标事件带来任何新的信息增益。

3.3 事件的互信息

定义

对于二维随机变量\((X,Y)\),事件\(\{Y=y_j\}\)与事件\(\{X=x_k\}\)之间的互信息定义为:

\[I\left(x_{k} ; y_{j}\right)=I\left(x_{k}\right)-I\left(x_{k} | y_{j}\right)=log \frac{p\left(x_{k} | y_{j}\right)}{q\left(x_{k}\right)}\]

物理本质

事件\(\{Y=y_j\}\)发生后,对事件\(\{X=x_k\}\) 不确定性的消除量;也可理解为:一个事件的发生,为另一个事件的发生所提供的信息量。

核心性质:对称性

\[I(x_{k} ; y_{j})=I(y_{j} ; x_{k})\]

证明

\[\begin{aligned} I(x_k;y_j) &= log \frac{p(x_k | y_j)}{q(x_k)} = log \frac{p(x_k, y_j)}{q(x_k) \omega(y_j)} \\ &= log \frac{p(y_j | x_k)}{\omega(y_j)} = I(y_j;x_k) \end{aligned}\]

两个事件之间的互信息是双向的,Y为X提供的信息量,等于X为Y提供的信息量。

取值特性与例子

沿用“杭州下雨”的设定,互信息的取值与事件相关性直接相关: 1. 正相关事件\(I(x_k;y_j) > 0\),说明一个事件的发生降低了另一个事件的不确定性,提供了有效信息; 2. 负相关事件\(I(x_k;y_j) < 0\),说明一个事件的发生增加了另一个事件的不确定性,提供了误导性信息; 3. 独立事件\(I(x_k;y_j) = 0\),说明两个事件无任何信息关联。

3.4 事件的联合自信息

定义

对于二维随机变量\((X,Y)\),事件\(\{X=x_k\}\)\(\{Y=y_j\}\)的联合自信息定义为:

\[I\left(x_{k}, y_{j}\right)=-log p\left(x_{k}, y_{j}\right)\]

物理意义

表示事件\(\{X=x_k\}\)\(\{Y=y_j\}\) 同时发生所需要的总信息量;也可理解为两个事件同时发生后,对外界提供的总信息量。

例子:\(I(x_k,y_j)\) 表示“杭州下雨”和“上海下雨”两个事件同时发生,所带来的总信息量。

3.5 事件的条件互信息

定义

在给定事件\(\{Z=z\}\)发生的条件下,事件\(\{X=x\}\)\(\{Y=y\}\)之间的条件互信息为:

\[I(x;y|z)=log \frac{p(x| y,z)}{p(x| z)}=log \frac{p(x,y|z)}{p(x| z)\cdot p(y| z)}\]

物理意义

已知事件\(\{Z=z\}\)发生的前提下,事件\(\{X=x\}\)\(\{Y=y\}\)之间相互提供的信息量,也就是在已有Z的信息基础上,Y能为X带来的额外信息增益。

典例

设定:\(x\):杭州下雨,\(y\):上海下雨,\(z\):宁波下雨。 已知:

  • \(q(x)=q(y)=q(z)=0.125\)

  • \(p(x | y)=0.25,\ p(x | z)=0.25,\ p(y | z)=0.25\)

  • \(p(x | y, z)=0.5\)

计算结果:

\[I(x) = -log_2 0.125 = 3\ \text{bit}\]
\[I(x | y) = -log_2 0.25 = 2\ \text{bit}\]
\[I(x ; y) = I(x)-I(x|y) = 1\ \text{bit}\]
\[I(x ; y | z) = log_2 \frac{0.5}{0.25} = 1\ \text{bit}\]

3.6 事件的联合互信息

定义

联合事件\(\{Y=y, Z=z\}\)与事件\(\{X=x\}\)之间的联合互信息为:

\[I(x; y, z)=log \frac{p(x | y, z)}{p(x)}=log \frac{p(x, y, z)}{p(x) p(y, z)}\]

也可表示为自信息与条件自信息的差值:

\[I(x ; y, z)=I(x)-I(x | y, z)\]

物理意义

事件\(\{Y=y\}\)\(\{Z=z\}\)同时发生后,共同为事件\(\{X=x\}\)提供的总信息量。

典例

沿用上述天气设定,已知\(q(x)=0.125\)\(p(x | y)=0.25\)\(p(x | y, z)=0.5\),计算得:

\[I(x;y) = 3 - 2 = 1\ \text{bit}\]
\[I ( x ; y , z ) = 3 - 1 = 2\ \text{bit}\]

结论:\(I(x;y,z) > I(x;y)\),两个相关事件同时发生,能为目标事件提供更多的信息量。

联合互信息的链式法则

\[I(x ; y, z)=I(x ; y)+I(x ; z | y)\]

物理意义:两个事件联合为X提供的总信息量,等于第一个事件Y为X提供的信息量,加上已知Y的前提下,第二个事件Z为X提供的额外信息量。

推导证明

\[\begin{aligned} I(x ; y, z) &=log \frac{p(x | y, z)}{p(x)} = log \frac{p(x | y) p(x | y, z)}{p(x) p(x | y)} \\ &= log \frac{p(x | y)}{p(x)}+log \frac{p(x | y, z)}{p(x | y)} \\ &=I(x ; y)+I(x ; z | y) \end{aligned}\]

3.7 事件信息度量公式小结

  1. 事件的自信息:\(I(x_{k})=-log q(x_{k})\)
  2. 事件的条件自信息:\(I(x_{k} | y_{j})=-log p(x_{k} | y_{j})\)
  3. 事件的互信息:\(I(x_k; y_j) = I(x_k) −I(x_k|y_j) = log \frac{p(x_k|y_j)}{q(x_k)}\)
  4. 事件的联合自信息:\(I(x_{k}, y_{j})=-log p(x_{k}, y_{j})\)
  5. 事件的条件互信息:\(I(x;y|z)=log \frac{p(x|y,z)}{p(x|z)}=log \frac{p(x,y|z)}{p(x|z)p(y|z)}\)
  6. 事件的联合互信息:\(I(x ; y, z)=I(x)-I(x | y, z)=log \frac{p(x | y, z)}{p(x)}=log \frac{p(x, y, z)}{p(x) p(y, z)}\)

  7. 联合互信息链式法则:\(I(x ; y, z)=I(x ; y)+I(x ; z | y)\)


四、随机变量的熵(香农熵)

从单个事件的信息度量,升级到对整个随机变量的平均不确定性的量化,是信息论最核心的概念。

4.1 定义

随机变量X的熵,是其所有可能取值的自信息的统计平均值(数学期望),定义为:

\[H(X)=E[I(X)]=\sum _{x \in \mathcal {X}} q(x) I(x)=-\sum _{x\in \mathcal {X}} q(x) log q(x)\]

也可记为\(H(p)\),其中\(p\)为X的概率分布矢量。

4.2 熵 vs 自信息

  • 自信息\(I(x_k)\):度量单个事件发生带来的信息量,是随机变量;

  • \(H(X)\):度量整个随机变量的平均不确定性,是确定的数值,代表随机变量在观测前的平均不确定程度。

4.3 典例:二元熵函数

设二元随机变量X的概率分布为:\(q(x_1)=p\)\(q(x_2)=1-p\)\(0≤p≤1\)),则其熵为:

\[H(X)=-plog p-(1-p)log (1-p)\]

二元熵的核心特性: 1. 当\(p=0\)\(p=1\)时,\(H(X)=0\):确定性变量无任何不确定性,熵为0; 2. 当\(p=0.5\)时,\(H(X)=1\ \text{bit}\):等概率分布时,随机变量的随机性最强,熵达到最大值。

4.4 熵的物理意义

熵是随机变量不确定性的定量度量,熵越大,代表随机变量的不确定性越强,预测其取值的难度越大。

典例

设三个随机变量:

  • X:香港下雪,\(P(X=1)=0.0001\)\(P(X=0)=0.9999\)

  • Y:北京下雪,\(P(Y=1)=0.5\)\(P(Y=0)=0.5\)

  • Z:莫斯科下雪,\(P(Z=1)=0.8\)\(P(Z=0)=0.2\)

计算熵值可得:\(H(Y)>H(Z)>H(X)\)

结论:北京下不下雪的不确定性最强,熵最大;香港几乎不可能下雪,不确定性最弱,熵最小,完全符合直观认知。


五、随机变量的联合熵与条件熵

将熵的概念推广到二维及多维随机变量,描述多变量之间的不确定性关联。

5.1 联合熵

定义

二维随机变量\((X,Y)\)的联合熵,是其联合自信息的数学期望,定义为:

\[H(X, Y)=E[I(X, Y)]=-\sum_{x \in \mathcal{X}, y \in \mathcal{Y}} p(x, y) log p(x, y)\]

物理意义

度量二维随机变量\((X,Y)\)整体的总不确定性,也就是同时观测X和Y两个随机变量,所需要的平均总信息量。

例子:\(H(X,Y)\) 表示“香港是否下雪”和“北京是否下雪”两个随机变量合在一起的总不确定程度。

5.2 条件熵

条件熵有两个递进的定义,分别对应“给定Y的某个取值”和“给定整个随机变量Y”两种场景。

定义1:给定Y=y时X的条件熵

在给定事件\(Y=y\)发生的条件下,X的条件熵为:

\[H(X | y)=\sum_{x \in \mathcal{X}} p(x | y) I(x | y)=-\sum_{x \in \mathcal{X}} p(x | y) log p(x | y)\]

物理意义:已知Y取某个特定值y时,随机变量X剩余的平均不确定性。

典例: 设定:X:杭州下雨,Y:上海下雨。

  • 场景1:\(P(X=1)=0.5\)\(P(X=0)=0.5\)\(P(X=1|Y=1)=0.75\)\(P(X=0|Y=1)=0.25\),计算得\(H(X | Y=1) < H(X)\),说明已知上海下雨,杭州下雨的不确定性降低;

  • 场景2:\(P(X=1)=0.25\)\(P(X=0)=0.75\)\(P(X=1|Y=1)=0.5\)\(P(X=0|Y=1)=0.5\),计算得\(H(X | Y=1) > H(X)\),说明已知上海下雨,杭州下雨的不确定性反而升高。

定义2:随机变量X关于Y的条件熵

随机变量X关于Y的条件熵,是“给定Y=y时X的条件熵”在Y的所有可能取值上的数学期望,定义为:

\[H(X | Y)=E\{H(X | y)\}=-\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) log p(x | y)\]

物理意义:已知整个随机变量Y的全部信息后,随机变量X剩余的平均不确定性。

核心性质:当X和Y相互独立时,\(H(X | Y)=H(X)\)。 如果X和Y独立,Y的任何信息都无法降低X的不确定性,因此条件熵等于X本身的熵。

5.3 联合熵的链式法则

定理(二维联合熵链式法则)

两个随机变量X和Y的联合熵,等于X的熵加上给定X时Y的条件熵,即:

\[H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)\]

推导证明

\[\begin{aligned} H(X, Y) &=E[I(X, Y)]=-\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) log p(x, y) \\ &=-\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) log p(x)-\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) log p(y | x) \\ &=H(X)+H(Y | X) \end{aligned}\]

核心推论

当X和Y相互独立时,\(H(X, Y)=H(X)+H(Y)\)。 独立随机变量的联合总不确定性,等于两个变量各自不确定性的和。

多变量推广

对于n个随机变量,联合熵的链式法则可推广为:

\[H(X_1,X_2,\dots,X_n) = \sum_{i=1}^n H(X_i | X_1,X_2,\dots,X_{i-1})\]

例:三个随机变量的联合熵:\(H ( X , Y , Z ) = H ( X ) + H ( Y | X ) + H ( Z | X , Y )\)


六、熵的性质

设离散随机变量X的概率分布为:

\[X \sim\left( \begin{array} {llll}{x_{1}}&{x_{2}}&{... }&{x_{K}}\\ {p_{1}}&{p_{2}}&{... }&{p_{K}}\end{array} \right)\]

其熵可记为:

\[H(X) \triangleq H_{K}\left(p_{1}, p_{2}, \cdots, p_{K}\right) \triangleq H_{K}(P)=-\sum_{k=1}^{K} p_{k} log p_{k}\]

其中P为K维概率矢量,满足\(\sum_{k=1}^K p_k=1\)\(p_k≥0\)

性质1:对称性

\(H_K(P)\) 的值仅与概率矢量P的分量取值有关,与分量的排列顺序无关。

例子:分布为[0.1,0.9]和[0.9,0.1]的两个随机变量,熵完全相等,因为不确定性只和概率数值有关,和取值顺序无关。

性质2:非负性

\[H_K(P) ≥0\]

等号成立的充要条件:概率矢量P中有且仅有一个分量为1,其余分量均为0(即X为确定性变量)。 熵是自信息的数学期望,自信息恒≥0,因此熵也恒≥0;只有完全确定的随机变量,熵才等于0。

性质3:可扩展性

给随机变量的取值空间增加一个零概率的新取值,熵的值保持不变,即:

\[lim _{\epsilon \to 0} H_{K+1}\left(p_{1}, p_{2}, \cdots, p_{K}-\epsilon, \epsilon\right)=H_{K}\left(p_{1}, p_{2}, \cdots, p_{K}\right)\]

零概率事件几乎不可能发生,对随机变量的平均不确定性无任何贡献,因此不会改变熵的大小。

性质4:递增性(可加性)

若原随机变量的某个取值被拆分为多个子取值,拆分后的新随机变量的熵,等于原熵加上拆分部分的熵的加权平均。

数学表达

\[H_{M} = H_{K}\left(p_{1}, p_{2}, \cdots, p_{K}\right)+\sum_{k=1}^{K} p_{k} H_{m_{k}}\left(q_{j k}\right)\]

其中\(M=\sum_{k=1}^K m_k\)\(\sum_{j=1}^{m_k} q_{jk}=1\),即把原第k个取值的概率\(p_k\),拆分为\(m_k\)个概率\(p_k q_{1k}, p_k q_{2k}, \dots, p_k q_{m_k k}\)

典例: 将随机变量的取值分为A、B两大类,A类概率为P(A),拆分为A1、A2、A3三个子项;B类概率为P(B),拆分为B1、B2两个子项。则拆分后的熵为:

\[H(X_2) = H(P(A), P(B)) + P(A)H(P_{A1},P_{A2},P_{A3}) + P(B)H(P_{B1},P_{B2})\]

拆分后总不确定性增加,增加的部分是拆分带来的额外不确定性的加权平均。

性质5:极值性(最大熵定理)

离散随机变量X有K个可能取值时,当且仅当X服从等概率分布(即\(p_k=1/K, \forall k\))时,熵达到最大值,最大值为\(log K\)。 数学表达:

\[H_{K}\left(p_{1}, p_{2}, \cdots, p_{K}\right) \leq H_{K}\left(\frac{1}{K}, \frac{1}{K}, \cdots, \frac{1}{K}\right)=log K\]

证明

首先证明引理:对任意概率分布\(\{p_k\}\)\(\{q_k\}\),有

\[H_{K}(p_{1}, p_{2}, \cdots, p_{K}) \leq-\sum_{k=1}^{K} p_{k} log q_{k}\]

引理证明:

\[\begin{aligned} H_{K}(P)+\sum_{k=1}^{K} p_{k} log q_{k} &= \sum_{k=1}^K p_k log \frac{q_k}{p_k} \\ &\leq log e \cdot \sum_{k=1}^K p_k \left( \frac{q_k}{p_k} -1 \right) \quad (\text{利用} \ ln x ≤x-1) \\ &= 0 \end{aligned}\]

\(q_k=1/K\),代入引理即可得:

\[H_K(P) ≤ -\sum_{k=1}^K p_k log \frac{1}{K} = log K\]

等号当且仅当\(p_k=1/K\)时成立。

等概率分布时,随机变量的不确定性最强,没有任何取值比其他取值更易预测,因此熵达到最大值。

性质6:条件熵的不增性

给定随机变量Y的信息后,X的条件熵不会大于X本身的熵,即:

\[H(X | Y) ≤ H(X)\]

等号成立的充要条件:X和Y相互独立。

证明

\[\begin{aligned} H(X | Y) &=E\{H(X | y)\}=-\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) log p(x | y) \\ &=-\sum_{y \in \mathcal{Y}} \omega(y)\left\{\sum_{x \in \mathcal{X}} p(x | y) log p(x | y)\right\} \\ &\leq-\sum_{y \in \mathcal{Y}} \omega(y)\left\{\sum_{x \in \mathcal{X}} p(x | y) log q(x)\right\} \quad (\text{利用极值性引理}) \\ &=-\sum_{x \in \mathcal{X}} q(x) log q(x)=H(X) \end{aligned}\]

信息只会消除或保持不确定性,不会增加不确定性,因此已知Y的信息后,X的平均不确定性只会降低或不变,不会升高。

性质7:严格上凸性(凹性)

熵函数\(H_k(P)\)是概率矢量\(P=(p_{1}, p_{2}, \cdots, p_{k})\)严格上凸函数(凹函数)

数学定义:对任何\(0<\theta<1\),和任意两个不相等的K维概率矢量\(P_1\)\(P_2\),有

\[H_{k}(\theta P_{1}+(1-\theta )P_{2})>\theta H_{k}(P_{1})+(1-\theta )H_{k}(P_{2})\]

上凸性意味着,两个概率分布的混合分布的熵,大于两个分布熵的加权平均。这一性质是信息论中最大熵原理、信道容量优化等核心问题的数学基础。