第一讲随机变量的熵和互信息¶

一、目标¶

掌握随机事件的自信息、互信息的概念及物理意义
了解条件事件的互信息与联合事件的互信息
掌握 香农熵的概念以及物理意义
了解随机变量的条件熵、联合熵及其核心性质
掌握随机变量互信息的定义以及核心性质

二、概率论基础¶

2.1 单随机变量的概率空间¶

对于离散随机变量\(X\)，其概率空间定义为\(\{\mathcal{X}, q(x)\}\)，其中： - \(\mathcal{X}\)：随机变量\(X\)的取值空间，\(\mathcal{X}=\{x_{k} ; k=1,2, \cdots, K\}\)，即\(X\)共有\(K\)个可能取值

\(q(x)\)：事件\(\{X=x\}\)发生的概率，满足两条基本公理：
非负性：\(q(x) ≥0\)
归一性：\(\sum_{x \in \mathcal{X}} q(x)=1\)

2.2 二维随机变量的概率分布¶

对于二维随机变量\((X, Y)\)，取值空间为笛卡尔积\(\mathcal{X} \times \mathcal{Y}\)，联合概率分布为\(p(x, y)\)，定义为：

\[p(x, y)=P\{X=x, Y=y\}\]

其中\(\mathcal{X}=\left\{x_{k} ; k=1,2, \cdots, K\right\}\)，\(\mathcal{Y}=\left\{y_{j} ; j=1,2, \cdots, J\right\}\)。

联合概率的核心性质¶

非负性：\(p\left(x_{k}, y_{j}\right) \geq 0\)
归一性：\(\sum_{k=1}^K \sum_{j=1}^J p\left(x_{k}, y_{j}\right)=1\)
边际概率（边缘概率）：
- \(Y\)的边际概率：\(\sum_{k=1}^K p\left(x_{k}, y_{j}\right)=\omega\left(y_{j}\right)\)
- \(X\)的边际概率：\(\sum_{j=1}^J p\left(x_{k}, y_{j}\right)=q\left(x_{k}\right)\)
- 条件概率（贝叶斯公式）：
\[p\left(y_{j} | x_{k}\right)=P\left(Y=y_{j} | X=x_{k}\right)=\frac{p\left(x_{k}, y_{j}\right)}{q\left(x_{k}\right)}\]

\[p\left(x_{k} | y_{j}\right)=P\left(X=x_{k} | Y=y_{j}\right)=\frac{p\left(x_{k}, y_{j}\right)}{\omega\left(y_{j}\right)}\]

三、离散事件的信息度量¶

本部分聚焦单个随机事件的信息量化，是后续随机变量整体信息度量的基础。

3.1 事件的自信息¶

定义¶

对于概率空间\((\mathcal{X}, q(x))\)，事件\(\{X=x_k\}\)的自信息定义为：

\[I\left(x_{k}\right)=-log _{a} q\left(x_{k}\right)\]

单位¶

底数\(a=2\)时，单位为比特(bit)，是信息论最常用单位；
底数\(a=e\)时，单位为奈特(nat)，多用于理论推导。

选择对数函数的核心原因¶

符合“概率越小，信息量越大”的直观认知；
对数函数是简单初等函数，易于数学分析与处理；
对数函数的可加性，符合现实中信息可叠加的经验。

自信息的物理本质（核心理解）¶

事件发生后，对外界（观察者）所提供的信息量；
事件发生前，外界为确证该事件发生所需要的信息量，也是为确证该事件需要付出的“代价”；
关键区分：自信息不代表事件本身的不确定性，事件本身是确定的（要么发生、要么不发生），自信息度量的是事件发生带来的信息增益。

自信息的核心性质¶

性质	数学表达	物理意义与例子
单调递减性	\(q(x_k)\)越大，\(I(x_k)\)越小	概率越小的事件，自信息越大。例：预报“明天有暴雨”（低概率）的信息量，远大于“明天晴天”（高概率）
确定性事件自信息为0	\(q(x_k)=1\)时，\(I(x_k)=0\)	确定事件发生不会带来任何新信息。例：“太阳从东方升起”的自信息为0
零概率事件自信息无穷大	\(q(x_k) \to 0\)时，\(I(x_k) \to \infty\)	极低概率事件一旦发生，会带来极大的信息量。例：“彩票中头奖”的自信息趋近无穷大

3.2 事件的条件自信息¶

定义¶

对于二维随机变量\((X,Y)\)，在事件\(\{Y=y_j\}\)发生的条件下，事件\(\{X=x_k\}\)的条件自信息定义为：

\[I\left(x_{k} | y_{j}\right)=-log p\left(x_{k} | y_{j}\right)\]

事件\(\{Y=y_j\}\)发生后，事件\(\{X=x_k\}\)再发生所能提供的新的、额外的信息量；也可理解为：已知\(Y=y_j\)的前提下，确证\(X=x_k\)发生所需要的信息量。

典例¶

设定：\(x_k\)为“杭州下雨”，先验概率\(q(x_k)=0.5\)，因此\(I(x_k)=1\ \text{bit}\)。

1. 正相关场景：\(y_j\) 为“上海下雨”

\[p(x_k|y_j) = 0.75\]

条件自信息：

\[I(x_k|y_j) = -\log_2 p(x_k|y_j) = -\log_2 0.75 = \log_2 \frac{4}{3}\ \text{bit}\]

\(I(x_k) > I(x_k|y_j)\)，相关事件发生后，确证目标事件需要的额外信息量减少。

2. 负相关场景：\(y_j\) 为“上海晴天”

\[p(x_k|y_j) = 0.25\]

条件自信息：

\[I(x_k|y_j) = -\log_2 p(x_k|y_j) = -\log_2 0.25 = 2\ \text{bit}\]

\(I(x_k) < I(x_k|y_j)\)，负相关事件发生后，确证目标事件需要的额外信息量增加。

3. 独立场景：\(y_j\) 为“北京下雨”

\[p(x_k|y_j) = q(x_k) = 0.5\]

条件自信息：

\[I(x_k|y_j) = -\log_2 p(x_k|y_j) = -\log_2 0.5 = 1\ \text{bit}\]

\(I(x_k) = I(x_k|y_j)\)，独立事件的发生，不会为目标事件带来任何新的信息增益。

3.3 事件的互信息¶

定义¶

对于二维随机变量\((X,Y)\)，事件\(\{Y=y_j\}\)与事件\(\{X=x_k\}\)之间的互信息定义为：

\[I\left(x_{k} ; y_{j}\right)=I\left(x_{k}\right)-I\left(x_{k} | y_{j}\right)=log \frac{p\left(x_{k} | y_{j}\right)}{q\left(x_{k}\right)}\]

物理本质¶

事件\(\{Y=y_j\}\)发生后，对事件\(\{X=x_k\}\) 不确定性的消除量；也可理解为：一个事件的发生，为另一个事件的发生所提供的信息量。

核心性质：对称性¶

\[I(x_{k} ; y_{j})=I(y_{j} ; x_{k})\]

证明：

\[\begin{aligned} I(x_k;y_j) &= log \frac{p(x_k | y_j)}{q(x_k)} = log \frac{p(x_k, y_j)}{q(x_k) \omega(y_j)} \\ &= log \frac{p(y_j | x_k)}{\omega(y_j)} = I(y_j;x_k) \end{aligned}\]

两个事件之间的互信息是双向的，Y为X提供的信息量，等于X为Y提供的信息量。

取值特性与例子¶

沿用“杭州下雨”的设定，互信息的取值与事件相关性直接相关： 1. 正相关事件：\(I(x_k;y_j) > 0\)，说明一个事件的发生降低了另一个事件的不确定性，提供了有效信息； 2. 负相关事件：\(I(x_k;y_j) < 0\)，说明一个事件的发生增加了另一个事件的不确定性，提供了误导性信息； 3. 独立事件：\(I(x_k;y_j) = 0\)，说明两个事件无任何信息关联。

3.4 事件的联合自信息¶

定义¶

对于二维随机变量\((X,Y)\)，事件\(\{X=x_k\}\)和\(\{Y=y_j\}\)的联合自信息定义为：

\[I\left(x_{k}, y_{j}\right)=-log p\left(x_{k}, y_{j}\right)\]

物理意义¶

表示事件\(\{X=x_k\}\)和\(\{Y=y_j\}\) 同时发生所需要的总信息量；也可理解为两个事件同时发生后，对外界提供的总信息量。

例子：\(I(x_k,y_j)\) 表示“杭州下雨”和“上海下雨”两个事件同时发生，所带来的总信息量。

3.5 事件的条件互信息¶

定义¶

在给定事件\(\{Z=z\}\)发生的条件下，事件\(\{X=x\}\)与\(\{Y=y\}\)之间的条件互信息为：

\[I(x;y|z)=log \frac{p(x| y,z)}{p(x| z)}=log \frac{p(x,y|z)}{p(x| z)\cdot p(y| z)}\]

物理意义¶

已知事件\(\{Z=z\}\)发生的前提下，事件\(\{X=x\}\)与\(\{Y=y\}\)之间相互提供的信息量，也就是在已有Z的信息基础上，Y能为X带来的额外信息增益。

典例¶

设定：\(x\)：杭州下雨，\(y\)：上海下雨，\(z\)：宁波下雨。已知：

\(q(x)=q(y)=q(z)=0.125\)
\(p(x | y)=0.25,\ p(x | z)=0.25,\ p(y | z)=0.25\)
\(p(x | y, z)=0.5\)

计算结果：

\[I(x) = -log_2 0.125 = 3\ \text{bit}\]

\[I(x | y) = -log_2 0.25 = 2\ \text{bit}\]

\[I(x ; y) = I(x)-I(x|y) = 1\ \text{bit}\]

\[I(x ; y | z) = log_2 \frac{0.5}{0.25} = 1\ \text{bit}\]

3.6 事件的联合互信息¶

定义¶

联合事件\(\{Y=y, Z=z\}\)与事件\(\{X=x\}\)之间的联合互信息为：

\[I(x; y, z)=log \frac{p(x | y, z)}{p(x)}=log \frac{p(x, y, z)}{p(x) p(y, z)}\]

也可表示为自信息与条件自信息的差值：

\[I(x ; y, z)=I(x)-I(x | y, z)\]

物理意义¶

事件\(\{Y=y\}\)和\(\{Z=z\}\)同时发生后，共同为事件\(\{X=x\}\)提供的总信息量。

典例¶

沿用上述天气设定，已知\(q(x)=0.125\)，\(p(x | y)=0.25\)，\(p(x | y, z)=0.5\)，计算得：

\[I(x;y) = 3 - 2 = 1\ \text{bit}\]

\[I ( x ; y , z ) = 3 - 1 = 2\ \text{bit}\]

结论：\(I(x;y,z) > I(x;y)\)，两个相关事件同时发生，能为目标事件提供更多的信息量。

联合互信息的链式法则¶

\[I(x ; y, z)=I(x ; y)+I(x ; z | y)\]

物理意义：两个事件联合为X提供的总信息量，等于第一个事件Y为X提供的信息量，加上已知Y的前提下，第二个事件Z为X提供的额外信息量。

推导证明：

\[\begin{aligned} I(x ; y, z) &=log \frac{p(x | y, z)}{p(x)} = log \frac{p(x | y) p(x | y, z)}{p(x) p(x | y)} \\ &= log \frac{p(x | y)}{p(x)}+log \frac{p(x | y, z)}{p(x | y)} \\ &=I(x ; y)+I(x ; z | y) \end{aligned}\]

3.7 事件信息度量公式小结¶

事件的自信息：\(I(x_{k})=-log q(x_{k})\)
事件的条件自信息：\(I(x_{k} | y_{j})=-log p(x_{k} | y_{j})\)
事件的互信息：\(I(x_k; y_j) = I(x_k) −I(x_k|y_j) = log \frac{p(x_k|y_j)}{q(x_k)}\)
事件的联合自信息：\(I(x_{k}, y_{j})=-log p(x_{k}, y_{j})\)
事件的条件互信息：\(I(x;y|z)=log \frac{p(x|y,z)}{p(x|z)}=log \frac{p(x,y|z)}{p(x|z)p(y|z)}\)
事件的联合互信息：\(I(x ; y, z)=I(x)-I(x | y, z)=log \frac{p(x | y, z)}{p(x)}=log \frac{p(x, y, z)}{p(x) p(y, z)}\)
联合互信息链式法则：\(I(x ; y, z)=I(x ; y)+I(x ; z | y)\)

四、随机变量的熵（香农熵）¶

从单个事件的信息度量，升级到对整个随机变量的平均不确定性的量化，是信息论最核心的概念。

4.1 定义¶

随机变量X的熵，是其所有可能取值的自信息的统计平均值（数学期望），定义为：

\[H(X)=E[I(X)]=\sum _{x \in \mathcal {X}} q(x) I(x)=-\sum _{x\in \mathcal {X}} q(x) log q(x)\]

也可记为\(H(p)\)，其中\(p\)为X的概率分布矢量。

4.2 熵 vs 自信息¶

自信息\(I(x_k)\)：度量单个事件发生带来的信息量，是随机变量；
熵\(H(X)\)：度量整个随机变量的平均不确定性，是确定的数值，代表随机变量在观测前的平均不确定程度。

4.3 典例：二元熵函数¶

设二元随机变量X的概率分布为：\(q(x_1)=p\)，\(q(x_2)=1-p\)（\(0≤p≤1\)），则其熵为：

\[H(X)=-plog p-(1-p)log (1-p)\]

二元熵的核心特性： 1. 当\(p=0\)或\(p=1\)时，\(H(X)=0\)：确定性变量无任何不确定性，熵为0； 2. 当\(p=0.5\)时，\(H(X)=1\ \text{bit}\)：等概率分布时，随机变量的随机性最强，熵达到最大值。

4.4 熵的物理意义¶

熵是随机变量不确定性的定量度量，熵越大，代表随机变量的不确定性越强，预测其取值的难度越大。

典例¶

设三个随机变量：

X：香港下雪，\(P(X=1)=0.0001\)，\(P(X=0)=0.9999\)
Y：北京下雪，\(P(Y=1)=0.5\)，\(P(Y=0)=0.5\)
Z：莫斯科下雪，\(P(Z=1)=0.8\)，\(P(Z=0)=0.2\)

计算熵值可得：\(H(Y)>H(Z)>H(X)\)

结论：北京下不下雪的不确定性最强，熵最大；香港几乎不可能下雪，不确定性最弱，熵最小，完全符合直观认知。

五、随机变量的联合熵与条件熵¶

将熵的概念推广到二维及多维随机变量，描述多变量之间的不确定性关联。

5.1 联合熵¶

定义¶

二维随机变量\((X,Y)\)的联合熵，是其联合自信息的数学期望，定义为：

\[H(X, Y)=E[I(X, Y)]=-\sum_{x \in \mathcal{X}, y \in \mathcal{Y}} p(x, y) log p(x, y)\]

物理意义¶

度量二维随机变量\((X,Y)\)整体的总不确定性，也就是同时观测X和Y两个随机变量，所需要的平均总信息量。

例子：\(H(X,Y)\) 表示“香港是否下雪”和“北京是否下雪”两个随机变量合在一起的总不确定程度。

5.2 条件熵¶

条件熵有两个递进的定义，分别对应“给定Y的某个取值”和“给定整个随机变量Y”两种场景。

定义1：给定Y=y时X的条件熵¶

在给定事件\(Y=y\)发生的条件下，X的条件熵为：

\[H(X | y)=\sum_{x \in \mathcal{X}} p(x | y) I(x | y)=-\sum_{x \in \mathcal{X}} p(x | y) log p(x | y)\]

物理意义：已知Y取某个特定值y时，随机变量X剩余的平均不确定性。

典例：设定：X：杭州下雨，Y：上海下雨。

场景1：\(P(X=1)=0.5\)，\(P(X=0)=0.5\)，\(P(X=1|Y=1)=0.75\)，\(P(X=0|Y=1)=0.25\)，计算得\(H(X | Y=1) < H(X)\)，说明已知上海下雨，杭州下雨的不确定性降低；
场景2：\(P(X=1)=0.25\)，\(P(X=0)=0.75\)，\(P(X=1|Y=1)=0.5\)，\(P(X=0|Y=1)=0.5\)，计算得\(H(X | Y=1) > H(X)\)，说明已知上海下雨，杭州下雨的不确定性反而升高。

定义2：随机变量X关于Y的条件熵¶

随机变量X关于Y的条件熵，是“给定Y=y时X的条件熵”在Y的所有可能取值上的数学期望，定义为：

\[H(X | Y)=E\{H(X | y)\}=-\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) log p(x | y)\]

物理意义：已知整个随机变量Y的全部信息后，随机变量X剩余的平均不确定性。

核心性质：当X和Y相互独立时，\(H(X | Y)=H(X)\)。如果X和Y独立，Y的任何信息都无法降低X的不确定性，因此条件熵等于X本身的熵。

5.3 联合熵的链式法则¶

定理（二维联合熵链式法则）¶

两个随机变量X和Y的联合熵，等于X的熵加上给定X时Y的条件熵，即：

\[H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)\]

推导证明¶

\[\begin{aligned} H(X, Y) &=E[I(X, Y)]=-\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) log p(x, y) \\ &=-\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) log p(x)-\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) log p(y | x) \\ &=H(X)+H(Y | X) \end{aligned}\]

核心推论¶

当X和Y相互独立时，\(H(X, Y)=H(X)+H(Y)\)。独立随机变量的联合总不确定性，等于两个变量各自不确定性的和。

多变量推广¶

对于n个随机变量，联合熵的链式法则可推广为：

\[H(X_1,X_2,\dots,X_n) = \sum_{i=1}^n H(X_i | X_1,X_2,\dots,X_{i-1})\]

例：三个随机变量的联合熵：\(H ( X , Y , Z ) = H ( X ) + H ( Y | X ) + H ( Z | X , Y )\)

六、熵的性质¶

设离散随机变量X的概率分布为：

\[X \sim\left( \begin{array} {llll}{x_{1}}&{x_{2}}&{... }&{x_{K}}\\ {p_{1}}&{p_{2}}&{... }&{p_{K}}\end{array} \right)\]

其熵可记为：

\[H(X) \triangleq H_{K}\left(p_{1}, p_{2}, \cdots, p_{K}\right) \triangleq H_{K}(P)=-\sum_{k=1}^{K} p_{k} log p_{k}\]

其中P为K维概率矢量，满足\(\sum_{k=1}^K p_k=1\)，\(p_k≥0\)。

性质1：对称性¶

\(H_K(P)\) 的值仅与概率矢量P的分量取值有关，与分量的排列顺序无关。

例子：分布为[0.1,0.9]和[0.9,0.1]的两个随机变量，熵完全相等，因为不确定性只和概率数值有关，和取值顺序无关。

性质2：非负性¶

\[H_K(P) ≥0\]

等号成立的充要条件：概率矢量P中有且仅有一个分量为1，其余分量均为0（即X为确定性变量）。熵是自信息的数学期望，自信息恒≥0，因此熵也恒≥0；只有完全确定的随机变量，熵才等于0。

性质3：可扩展性¶

给随机变量的取值空间增加一个零概率的新取值，熵的值保持不变，即：

\[lim _{\epsilon \to 0} H_{K+1}\left(p_{1}, p_{2}, \cdots, p_{K}-\epsilon, \epsilon\right)=H_{K}\left(p_{1}, p_{2}, \cdots, p_{K}\right)\]

零概率事件几乎不可能发生，对随机变量的平均不确定性无任何贡献，因此不会改变熵的大小。

性质4：递增性（可加性）¶

若原随机变量的某个取值被拆分为多个子取值，拆分后的新随机变量的熵，等于原熵加上拆分部分的熵的加权平均。

数学表达：

\[H_{M} = H_{K}\left(p_{1}, p_{2}, \cdots, p_{K}\right)+\sum_{k=1}^{K} p_{k} H_{m_{k}}\left(q_{j k}\right)\]

其中\(M=\sum_{k=1}^K m_k\)，\(\sum_{j=1}^{m_k} q_{jk}=1\)，即把原第k个取值的概率\(p_k\)，拆分为\(m_k\)个概率\(p_k q_{1k}, p_k q_{2k}, \dots, p_k q_{m_k k}\)。

典例：将随机变量的取值分为A、B两大类，A类概率为P(A)，拆分为A1、A2、A3三个子项；B类概率为P(B)，拆分为B1、B2两个子项。则拆分后的熵为：

\[H(X_2) = H(P(A), P(B)) + P(A)H(P_{A1},P_{A2},P_{A3}) + P(B)H(P_{B1},P_{B2})\]

拆分后总不确定性增加，增加的部分是拆分带来的额外不确定性的加权平均。

性质5：极值性（最大熵定理）¶

离散随机变量X有K个可能取值时，当且仅当X服从等概率分布（即\(p_k=1/K, \forall k\)）时，熵达到最大值，最大值为\(log K\)。数学表达：

\[H_{K}\left(p_{1}, p_{2}, \cdots, p_{K}\right) \leq H_{K}\left(\frac{1}{K}, \frac{1}{K}, \cdots, \frac{1}{K}\right)=log K\]

证明¶

首先证明引理：对任意概率分布\(\{p_k\}\)和\(\{q_k\}\)，有

\[H_{K}(p_{1}, p_{2}, \cdots, p_{K}) \leq-\sum_{k=1}^{K} p_{k} log q_{k}\]

引理证明：

\[\begin{aligned} H_{K}(P)+\sum_{k=1}^{K} p_{k} log q_{k} &= \sum_{k=1}^K p_k log \frac{q_k}{p_k} \\ &\leq log e \cdot \sum_{k=1}^K p_k \left( \frac{q_k}{p_k} -1 \right) \quad (\text{利用} \ ln x ≤x-1) \\ &= 0 \end{aligned}\]

令\(q_k=1/K\)，代入引理即可得：

\[H_K(P) ≤ -\sum_{k=1}^K p_k log \frac{1}{K} = log K\]

等号当且仅当\(p_k=1/K\)时成立。

等概率分布时，随机变量的不确定性最强，没有任何取值比其他取值更易预测，因此熵达到最大值。

性质6：条件熵的不增性¶

给定随机变量Y的信息后，X的条件熵不会大于X本身的熵，即：

\[H(X | Y) ≤ H(X)\]

等号成立的充要条件：X和Y相互独立。

证明¶

\[\begin{aligned} H(X | Y) &=E\{H(X | y)\}=-\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) log p(x | y) \\ &=-\sum_{y \in \mathcal{Y}} \omega(y)\left\{\sum_{x \in \mathcal{X}} p(x | y) log p(x | y)\right\} \\ &\leq-\sum_{y \in \mathcal{Y}} \omega(y)\left\{\sum_{x \in \mathcal{X}} p(x | y) log q(x)\right\} \quad (\text{利用极值性引理}) \\ &=-\sum_{x \in \mathcal{X}} q(x) log q(x)=H(X) \end{aligned}\]

信息只会消除或保持不确定性，不会增加不确定性，因此已知Y的信息后，X的平均不确定性只会降低或不变，不会升高。

性质7：严格上凸性（凹性）¶

熵函数\(H_k(P)\)是概率矢量\(P=(p_{1}, p_{2}, \cdots, p_{k})\)的严格上凸函数（凹函数）。

数学定义：对任何\(0<\theta<1\)，和任意两个不相等的K维概率矢量\(P_1\)、\(P_2\)，有

\[H_{k}(\theta P_{1}+(1-\theta )P_{2})>\theta H_{k}(P_{1})+(1-\theta )H_{k}(P_{2})\]

上凸性意味着，两个概率分布的混合分布的熵，大于两个分布熵的加权平均。这一性质是信息论中最大熵原理、信道容量优化等核心问题的数学基础。

第一讲 随机变量的熵和互信息¶

一、目标¶

二、概率论基础¶

2.1 单随机变量的概率空间¶

2.2 二维随机变量的概率分布¶

联合概率的核心性质¶

三、离散事件的信息度量¶

3.1 事件的自信息¶

定义¶

单位¶

选择对数函数的核心原因¶

自信息的物理本质（核心理解）¶

自信息的核心性质¶

3.2 事件的条件自信息¶

定义¶

典例¶

3.3 事件的互信息¶

定义¶

物理本质¶

核心性质：对称性¶

取值特性与例子¶

3.4 事件的联合自信息¶

定义¶

物理意义¶

3.5 事件的条件互信息¶

定义¶

物理意义¶

典例¶

3.6 事件的联合互信息¶

定义¶

物理意义¶

典例¶

联合互信息的链式法则¶

3.7 事件信息度量公式小结¶

四、随机变量的熵（香农熵）¶

4.1 定义¶

4.2 熵 vs 自信息¶

4.3 典例：二元熵函数¶

4.4 熵的物理意义¶

典例¶

五、随机变量的联合熵与条件熵¶

5.1 联合熵¶

定义¶

物理意义¶

5.2 条件熵¶

定义1：给定Y=y时X的条件熵¶

定义2：随机变量X关于Y的条件熵¶

5.3 联合熵的链式法则¶

定理（二维联合熵链式法则）¶

推导证明¶

核心推论¶

多变量推广¶

六、熵的性质¶

性质1：对称性¶

性质2：非负性¶

性质3：可扩展性¶

性质4：递增性（可加性）¶

性质5：极值性（最大熵定理）¶

证明¶

性质6：条件熵的不增性¶

证明¶

性质7：严格上凸性（凹性）¶

第一讲随机变量的熵和互信息¶