第一讲 随机变量的熵和互信息¶
一、目标¶
- 掌握随机事件的自信息、互信息的概念及物理意义
- 了解条件事件的互信息与联合事件的互信息
- 掌握 香农熵的概念以及物理意义
- 了解随机变量的条件熵、联合熵及其核心性质
- 掌握随机变量互信息的定义以及核心性质
二、概率论基础¶
2.1 单随机变量的概率空间¶
对于离散随机变量\(X\),其概率空间定义为\(\{\mathcal{X}, q(x)\}\),其中: - \(\mathcal{X}\):随机变量\(X\)的取值空间,\(\mathcal{X}=\{x_{k} ; k=1,2, \cdots, K\}\),即\(X\)共有\(K\)个可能取值
- \(q(x)\):事件\(\{X=x\}\)发生的概率,满足两条基本公理:
- 非负性:\(q(x) ≥0\)
- 归一性:\(\sum_{x \in \mathcal{X}} q(x)=1\)
2.2 二维随机变量的概率分布¶
对于二维随机变量\((X, Y)\),取值空间为笛卡尔积\(\mathcal{X} \times \mathcal{Y}\),联合概率分布为\(p(x, y)\),定义为:
其中\(\mathcal{X}=\left\{x_{k} ; k=1,2, \cdots, K\right\}\),\(\mathcal{Y}=\left\{y_{j} ; j=1,2, \cdots, J\right\}\)。
联合概率的核心性质¶
- 非负性:\(p\left(x_{k}, y_{j}\right) \geq 0\)
- 归一性:\(\sum_{k=1}^K \sum_{j=1}^J p\left(x_{k}, y_{j}\right)=1\)
-
边际概率(边缘概率):
-
\(Y\)的边际概率:\(\sum_{k=1}^K p\left(x_{k}, y_{j}\right)=\omega\left(y_{j}\right)\)
-
\(X\)的边际概率:\(\sum_{j=1}^J p\left(x_{k}, y_{j}\right)=q\left(x_{k}\right)\)
- 条件概率(贝叶斯公式):
\[p\left(y_{j} | x_{k}\right)=P\left(Y=y_{j} | X=x_{k}\right)=\frac{p\left(x_{k}, y_{j}\right)}{q\left(x_{k}\right)}\]\[p\left(x_{k} | y_{j}\right)=P\left(X=x_{k} | Y=y_{j}\right)=\frac{p\left(x_{k}, y_{j}\right)}{\omega\left(y_{j}\right)}\] -
三、离散事件的信息度量¶
本部分聚焦单个随机事件的信息量化,是后续随机变量整体信息度量的基础。
3.1 事件的自信息¶
定义¶
对于概率空间\((\mathcal{X}, q(x))\),事件\(\{X=x_k\}\)的自信息定义为:
单位¶
- 底数\(a=2\)时,单位为比特(bit),是信息论最常用单位;
- 底数\(a=e\)时,单位为奈特(nat),多用于理论推导。
选择对数函数的核心原因¶
- 符合“概率越小,信息量越大”的直观认知;
- 对数函数是简单初等函数,易于数学分析与处理;
- 对数函数的可加性,符合现实中信息可叠加的经验。
自信息的物理本质(核心理解)¶
- 事件发生后,对外界(观察者)所提供的信息量;
- 事件发生前,外界为确证该事件发生所需要的信息量,也是为确证该事件需要付出的“代价”;
- 关键区分:自信息不代表事件本身的不确定性,事件本身是确定的(要么发生、要么不发生),自信息度量的是事件发生带来的信息增益。
自信息的核心性质¶
| 性质 | 数学表达 | 物理意义与例子 |
|---|---|---|
| 单调递减性 | \(q(x_k)\)越大,\(I(x_k)\)越小 | 概率越小的事件,自信息越大。 例:预报“明天有暴雨”(低概率)的信息量,远大于“明天晴天”(高概率) |
| 确定性事件自信息为0 | \(q(x_k)=1\)时,\(I(x_k)=0\) | 确定事件发生不会带来任何新信息。 例:“太阳从东方升起”的自信息为0 |
| 零概率事件自信息无穷大 | \(q(x_k) \to 0\)时,\(I(x_k) \to \infty\) | 极低概率事件一旦发生,会带来极大的信息量。 例:“彩票中头奖”的自信息趋近无穷大 |
3.2 事件的条件自信息¶
定义¶
对于二维随机变量\((X,Y)\),在事件\(\{Y=y_j\}\)发生的条件下,事件\(\{X=x_k\}\)的条件自信息定义为:
事件\(\{Y=y_j\}\)发生后,事件\(\{X=x_k\}\)再发生所能提供的新的、额外的信息量;也可理解为:已知\(Y=y_j\)的前提下,确证\(X=x_k\)发生所需要的信息量。
典例¶
设定:\(x_k\)为“杭州下雨”,先验概率\(q(x_k)=0.5\),因此\(I(x_k)=1\ \text{bit}\)。
1. 正相关场景:\(y_j\) 为“上海下雨”
条件自信息:
- \(I(x_k) > I(x_k|y_j)\),相关事件发生后,确证目标事件需要的额外信息量减少。
2. 负相关场景:\(y_j\) 为“上海晴天”
条件自信息:
- \(I(x_k) < I(x_k|y_j)\),负相关事件发生后,确证目标事件需要的额外信息量增加。
3. 独立场景:\(y_j\) 为“北京下雨”
条件自信息:
- \(I(x_k) = I(x_k|y_j)\),独立事件的发生,不会为目标事件带来任何新的信息增益。
3.3 事件的互信息¶
定义¶
对于二维随机变量\((X,Y)\),事件\(\{Y=y_j\}\)与事件\(\{X=x_k\}\)之间的互信息定义为:
物理本质¶
事件\(\{Y=y_j\}\)发生后,对事件\(\{X=x_k\}\) 不确定性的消除量;也可理解为:一个事件的发生,为另一个事件的发生所提供的信息量。
核心性质:对称性¶
证明:
两个事件之间的互信息是双向的,Y为X提供的信息量,等于X为Y提供的信息量。
取值特性与例子¶
沿用“杭州下雨”的设定,互信息的取值与事件相关性直接相关: 1. 正相关事件:\(I(x_k;y_j) > 0\),说明一个事件的发生降低了另一个事件的不确定性,提供了有效信息; 2. 负相关事件:\(I(x_k;y_j) < 0\),说明一个事件的发生增加了另一个事件的不确定性,提供了误导性信息; 3. 独立事件:\(I(x_k;y_j) = 0\),说明两个事件无任何信息关联。
3.4 事件的联合自信息¶
定义¶
对于二维随机变量\((X,Y)\),事件\(\{X=x_k\}\)和\(\{Y=y_j\}\)的联合自信息定义为:
物理意义¶
表示事件\(\{X=x_k\}\)和\(\{Y=y_j\}\) 同时发生所需要的总信息量;也可理解为两个事件同时发生后,对外界提供的总信息量。
例子:\(I(x_k,y_j)\) 表示“杭州下雨”和“上海下雨”两个事件同时发生,所带来的总信息量。
3.5 事件的条件互信息¶
定义¶
在给定事件\(\{Z=z\}\)发生的条件下,事件\(\{X=x\}\)与\(\{Y=y\}\)之间的条件互信息为:
物理意义¶
已知事件\(\{Z=z\}\)发生的前提下,事件\(\{X=x\}\)与\(\{Y=y\}\)之间相互提供的信息量,也就是在已有Z的信息基础上,Y能为X带来的额外信息增益。
典例¶
设定:\(x\):杭州下雨,\(y\):上海下雨,\(z\):宁波下雨。 已知:
-
\(q(x)=q(y)=q(z)=0.125\)
-
\(p(x | y)=0.25,\ p(x | z)=0.25,\ p(y | z)=0.25\)
-
\(p(x | y, z)=0.5\)
计算结果:
3.6 事件的联合互信息¶
定义¶
联合事件\(\{Y=y, Z=z\}\)与事件\(\{X=x\}\)之间的联合互信息为:
也可表示为自信息与条件自信息的差值:
物理意义¶
事件\(\{Y=y\}\)和\(\{Z=z\}\)同时发生后,共同为事件\(\{X=x\}\)提供的总信息量。
典例¶
沿用上述天气设定,已知\(q(x)=0.125\),\(p(x | y)=0.25\),\(p(x | y, z)=0.5\),计算得:
结论:\(I(x;y,z) > I(x;y)\),两个相关事件同时发生,能为目标事件提供更多的信息量。
联合互信息的链式法则¶
物理意义:两个事件联合为X提供的总信息量,等于第一个事件Y为X提供的信息量,加上已知Y的前提下,第二个事件Z为X提供的额外信息量。
推导证明:
3.7 事件信息度量公式小结¶
- 事件的自信息:\(I(x_{k})=-log q(x_{k})\)
- 事件的条件自信息:\(I(x_{k} | y_{j})=-log p(x_{k} | y_{j})\)
- 事件的互信息:\(I(x_k; y_j) = I(x_k) −I(x_k|y_j) = log \frac{p(x_k|y_j)}{q(x_k)}\)
- 事件的联合自信息:\(I(x_{k}, y_{j})=-log p(x_{k}, y_{j})\)
- 事件的条件互信息:\(I(x;y|z)=log \frac{p(x|y,z)}{p(x|z)}=log \frac{p(x,y|z)}{p(x|z)p(y|z)}\)
-
事件的联合互信息:\(I(x ; y, z)=I(x)-I(x | y, z)=log \frac{p(x | y, z)}{p(x)}=log \frac{p(x, y, z)}{p(x) p(y, z)}\)
-
联合互信息链式法则:\(I(x ; y, z)=I(x ; y)+I(x ; z | y)\)
四、随机变量的熵(香农熵)¶
从单个事件的信息度量,升级到对整个随机变量的平均不确定性的量化,是信息论最核心的概念。
4.1 定义¶
随机变量X的熵,是其所有可能取值的自信息的统计平均值(数学期望),定义为:
也可记为\(H(p)\),其中\(p\)为X的概率分布矢量。
4.2 熵 vs 自信息¶
-
自信息\(I(x_k)\):度量单个事件发生带来的信息量,是随机变量;
-
熵\(H(X)\):度量整个随机变量的平均不确定性,是确定的数值,代表随机变量在观测前的平均不确定程度。
4.3 典例:二元熵函数¶
设二元随机变量X的概率分布为:\(q(x_1)=p\),\(q(x_2)=1-p\)(\(0≤p≤1\)),则其熵为:
二元熵的核心特性: 1. 当\(p=0\)或\(p=1\)时,\(H(X)=0\):确定性变量无任何不确定性,熵为0; 2. 当\(p=0.5\)时,\(H(X)=1\ \text{bit}\):等概率分布时,随机变量的随机性最强,熵达到最大值。
4.4 熵的物理意义¶
熵是随机变量不确定性的定量度量,熵越大,代表随机变量的不确定性越强,预测其取值的难度越大。
典例¶
设三个随机变量:
-
X:香港下雪,\(P(X=1)=0.0001\),\(P(X=0)=0.9999\)
-
Y:北京下雪,\(P(Y=1)=0.5\),\(P(Y=0)=0.5\)
-
Z:莫斯科下雪,\(P(Z=1)=0.8\),\(P(Z=0)=0.2\)
计算熵值可得:\(H(Y)>H(Z)>H(X)\)
结论:北京下不下雪的不确定性最强,熵最大;香港几乎不可能下雪,不确定性最弱,熵最小,完全符合直观认知。
五、随机变量的联合熵与条件熵¶
将熵的概念推广到二维及多维随机变量,描述多变量之间的不确定性关联。
5.1 联合熵¶
定义¶
二维随机变量\((X,Y)\)的联合熵,是其联合自信息的数学期望,定义为:
物理意义¶
度量二维随机变量\((X,Y)\)整体的总不确定性,也就是同时观测X和Y两个随机变量,所需要的平均总信息量。
例子:\(H(X,Y)\) 表示“香港是否下雪”和“北京是否下雪”两个随机变量合在一起的总不确定程度。
5.2 条件熵¶
条件熵有两个递进的定义,分别对应“给定Y的某个取值”和“给定整个随机变量Y”两种场景。
定义1:给定Y=y时X的条件熵¶
在给定事件\(Y=y\)发生的条件下,X的条件熵为:
物理意义:已知Y取某个特定值y时,随机变量X剩余的平均不确定性。
典例: 设定:X:杭州下雨,Y:上海下雨。
-
场景1:\(P(X=1)=0.5\),\(P(X=0)=0.5\),\(P(X=1|Y=1)=0.75\),\(P(X=0|Y=1)=0.25\),计算得\(H(X | Y=1) < H(X)\),说明已知上海下雨,杭州下雨的不确定性降低;
-
场景2:\(P(X=1)=0.25\),\(P(X=0)=0.75\),\(P(X=1|Y=1)=0.5\),\(P(X=0|Y=1)=0.5\),计算得\(H(X | Y=1) > H(X)\),说明已知上海下雨,杭州下雨的不确定性反而升高。
定义2:随机变量X关于Y的条件熵¶
随机变量X关于Y的条件熵,是“给定Y=y时X的条件熵”在Y的所有可能取值上的数学期望,定义为:
物理意义:已知整个随机变量Y的全部信息后,随机变量X剩余的平均不确定性。
核心性质:当X和Y相互独立时,\(H(X | Y)=H(X)\)。 如果X和Y独立,Y的任何信息都无法降低X的不确定性,因此条件熵等于X本身的熵。
5.3 联合熵的链式法则¶
定理(二维联合熵链式法则)¶
两个随机变量X和Y的联合熵,等于X的熵加上给定X时Y的条件熵,即:
推导证明¶
核心推论¶
当X和Y相互独立时,\(H(X, Y)=H(X)+H(Y)\)。 独立随机变量的联合总不确定性,等于两个变量各自不确定性的和。
多变量推广¶
对于n个随机变量,联合熵的链式法则可推广为:
例:三个随机变量的联合熵:\(H ( X , Y , Z ) = H ( X ) + H ( Y | X ) + H ( Z | X , Y )\)
六、熵的性质¶
设离散随机变量X的概率分布为:
其熵可记为:
其中P为K维概率矢量,满足\(\sum_{k=1}^K p_k=1\),\(p_k≥0\)。
性质1:对称性¶
\(H_K(P)\) 的值仅与概率矢量P的分量取值有关,与分量的排列顺序无关。
例子:分布为[0.1,0.9]和[0.9,0.1]的两个随机变量,熵完全相等,因为不确定性只和概率数值有关,和取值顺序无关。
性质2:非负性¶
等号成立的充要条件:概率矢量P中有且仅有一个分量为1,其余分量均为0(即X为确定性变量)。 熵是自信息的数学期望,自信息恒≥0,因此熵也恒≥0;只有完全确定的随机变量,熵才等于0。
性质3:可扩展性¶
给随机变量的取值空间增加一个零概率的新取值,熵的值保持不变,即:
零概率事件几乎不可能发生,对随机变量的平均不确定性无任何贡献,因此不会改变熵的大小。
性质4:递增性(可加性)¶
若原随机变量的某个取值被拆分为多个子取值,拆分后的新随机变量的熵,等于原熵加上拆分部分的熵的加权平均。
数学表达:
其中\(M=\sum_{k=1}^K m_k\),\(\sum_{j=1}^{m_k} q_{jk}=1\),即把原第k个取值的概率\(p_k\),拆分为\(m_k\)个概率\(p_k q_{1k}, p_k q_{2k}, \dots, p_k q_{m_k k}\)。
典例: 将随机变量的取值分为A、B两大类,A类概率为P(A),拆分为A1、A2、A3三个子项;B类概率为P(B),拆分为B1、B2两个子项。则拆分后的熵为:
拆分后总不确定性增加,增加的部分是拆分带来的额外不确定性的加权平均。
性质5:极值性(最大熵定理)¶
离散随机变量X有K个可能取值时,当且仅当X服从等概率分布(即\(p_k=1/K, \forall k\))时,熵达到最大值,最大值为\(log K\)。 数学表达:
证明¶
首先证明引理:对任意概率分布\(\{p_k\}\)和\(\{q_k\}\),有
引理证明:
令\(q_k=1/K\),代入引理即可得:
等号当且仅当\(p_k=1/K\)时成立。
等概率分布时,随机变量的不确定性最强,没有任何取值比其他取值更易预测,因此熵达到最大值。
性质6:条件熵的不增性¶
给定随机变量Y的信息后,X的条件熵不会大于X本身的熵,即:
等号成立的充要条件:X和Y相互独立。
证明¶
信息只会消除或保持不确定性,不会增加不确定性,因此已知Y的信息后,X的平均不确定性只会降低或不变,不会升高。
性质7:严格上凸性(凹性)¶
熵函数\(H_k(P)\)是概率矢量\(P=(p_{1}, p_{2}, \cdots, p_{k})\)的严格上凸函数(凹函数)。
数学定义:对任何\(0<\theta<1\),和任意两个不相等的K维概率矢量\(P_1\)、\(P_2\),有
上凸性意味着,两个概率分布的混合分布的熵,大于两个分布熵的加权平均。这一性质是信息论中最大熵原理、信道容量优化等核心问题的数学基础。