互信息

✍ dations ◷ 2025-11-23 03:56:12 #信息论,信息学熵

在概率论和信息论中，两个随机变量的互信息（mutual Information，简称MI）或转移信息（transinformation）是变量间相互依赖性的量度。不同于相关系数，互信息并不局限于实值随机变量，它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息是点间互信息（英语：Pointwise mutual information）（PMI）的期望值。互信息最常用的单位是bit。

一般地，两个离散随机变量和的互信息可以定义为：

其中 (, ) 是和的联合概率分布函数，而 $p(x)$ 和的边缘概率分布函数。

在连续随机变量的情形下，求和被替换成了二重定积分：

其中 (, ) 当前是和的联合概率函数，而 $p(x)$ 和的边缘概率密度函数。

如果对数以 2 为基底，互信息的单位是bit。

直观上，互信息度量和共享的信息：它度量知道这两个变量其中一个，对另一个不确定度减少的程度。例如，如果和相互独立，则知道不对提供任何信息，反之亦然，所以它们的互信息为零。在另一个极端，如果是的一个确定性函数，且也是的一个确定性函数，那么传递的所有信息被和共享：知道决定的值，反之亦然。因此，在此情形互信息与（或）单独包含的不确定度相同，称作（或）的熵。而且，这个互信息与的熵和的熵相同。（这种情形的一个非常特殊的情况是当和为相同随机变量时。）

互信息是和的联合分布相对于假定和独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性：(; ) = 0 当且仅当和为独立随机变量。从一个方向很容易看出：当和独立时，(,) = () ()，因此：

此外，互信息是非负的（即 $I(X;Y)\geq 0$ (|) 和 (|) 是条件熵，而 (,) 是和的联合熵。注意到这组关系和并集、差集和交集的关系类似，于是用Venn图表示。

在互信息定义的基础上使用琴生不等式，我们可以证明 (;) 是非负的，因此 $\ H(X)\geq H(X|Y)$ () 看作一个随机变量于不确定度的量度，那么 (|) 就是"在已知事件后事件会发生"的不确定度。于是第一个等式的右边就可以读作“将"Y事件的不确定度"，减去 --- "在基于事件后事件因此发生的不确定度"”。

这证实了互信息的直观意义为: "因X而有Y事件"的熵( 基于已知随机变量的不确定性) 在"Y事件"的熵之中具有多少影响地位( "Y事件所具有的不确定性" 其中包含了多少 "Y|X事件所具有的不确性" )，意即"Y具有的不确定性"有多少程度是起因于X事件;

所以具体的解释就是: 互信息越小，两个来自不同事件空间的随机变量彼此之间的关系性越低; 互信息越高，关系性则越高。

注意到离散情形 (|) = 0，于是 () = (;)。因此 (;) ≥ (;)，我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的信息“的基本原理。

互信息也可以表示为两个随机变量的边缘分布和的乘积 () × () 相对于随机变量的联合熵 (,) 的相对熵：

此外，令 (|) = (, ) / ()。则

注意到，这里相对熵涉及到仅对随机变量积分，表达式 $D_{\mathrm {KL} }(p(x|y)\|p(x))$ 为变量。于是互信息也可以理解为相对熵的单变量分布 () 相对于给定时的条件分布 (|) ：分布 (|) 和 () 之间的平均差异越大，信息增益越大。

对连续型随机变量量化的定义如下：

$f(x_{i})\Delta =\int _{i\Delta }^{(i+1)\Delta }f(x)dx=p_{i}$ $f(x_{i})\Delta =\int _{i\Delta }^{(i+1)\Delta }f(x)dx=p_{i}$

量化后的随机变量 $X^{\Delta }$ $X^{\Delta }$ :

$X^{\Delta }=x_{i},i\Delta \leq X<(i+1)\Delta$ $X^{\Delta }=x_{i},i\Delta \leq X<(i+1)\Delta$ 。

则,

$I(X^{\Delta };Y^{\Delta })=H(X^{\Delta })-H(X^{\Delta }|Y^{\Delta })$ $I(X^{\Delta };Y^{\Delta })=H(X^{\Delta })-H(X^{\Delta }|Y^{\Delta })$

$\approx h(X)-log{\Delta }-(h(X|Y)-log{\Delta })$ $\approx h(X)-log{\Delta }-(h(X|Y)-log{\Delta })$

$=I(X;Y)$ $=I(X;Y)$

广义而言，我们可以将互信息定义在有限多个连续随机变量值域的划分。

令 $\chi$ $\chi$ 为连续型随机变量的值域， $P_{i}\in P$ $P_{i}\in P$ , 其中 $P {\displaystyle P}$ $P$ 为 $\chi$ $\chi$ 划分所构成的集合，意即 $\cup _{i}P_{i}=\chi$ $\cup _{i}P_{i}=\chi$ 。

以 $P {\displaystyle P}$ $P$ 量化连续型随机变量 $X {\displaystyle X}$ $X$ 后，所得结果为离散型随机变量,

$Pr(_{P}=i)=\int _{P_{i}}dF(x)$ $Pr(_{P}=i)=\int _{P_{i}}dF(x)$ 。

对于两连续型随机变量X、Y，其划分分别为P、Q，则其互信息可表示为：

$I(X;Y)={\underset {P,Q}{sup}}I(_{P};_{Q})$ $I(X;Y)={\underset {P,Q}{sup}}I(_{P};_{Q})$ 。

相关

非正统经济学思想非主流经济学（英语：Heterodox economics），又称异端经济学、非正统经济学，是指采取不同于主流经济学研究方法的经济学学派的概称。主流经济学，又称正统经济学，是指在英语世界中，具备
黄沙黄沙（即黄尘、亚洲粉尘、黄河风或中国沙尘暴）是一种季节性的气象现象，它会于东亚冬春交际时零星地出现。沙尘起源于蒙古沙漠、中国北部和哈萨克斯坦，而表面高速的风及激烈的尘暴
自然主义自然主义通常是指综合唯物主义和实用主义、不探究自然界中超自然因素的哲学立场，其理论基础认为所有现象皆可用自然理由的概念解释。自然主义不一定认为超自然现象和对于不存
感冒的普通感冒（common cold），俗称伤风，医学上还称为急性上呼吸道感染或急性鼻咽炎，是一种上呼吸道的病毒性感染，主要原发于鼻腔，但也可能进犯喉咙以及鼻窦。症状一般于暴露病原后两天内
自自部，为汉字索引中的部首之一，康熙字典214个部首中的第一百三十二个（六划的则为第十五个）。就繁体和简体中文中，自部归于六划部首。自部只以左、上方为部字。且无其他部首可用者
超过100万欧洲人定居黑脚（法语：Pied-Noir）是指生活在法属阿尔及利亚的法国或欧洲公民，亦可指1956年前生活在法属突尼斯和摩洛哥的法国公民。特别地，黑脚指出生在阿尔及利亚的欧洲定居者后裔，比如法国
内华达拉斯维加斯内华达大学拉斯维加斯分校（University of Nevada, Las Vegas，简称UNLV），是内华达州立大学系统的一个成员。这所公立大学位于内华达州南部的大城市拉斯维加斯附近，以酒店管理、美
蒙塔古岛蒙塔古岛（英语：Montague Island）是美国的岛屿，位于阿拉斯加湾的威廉王子湾入口处，由阿拉斯加州负责管辖，面积790.88平方公里，是该国第26大岛屿，岛上无人居住。坐标：60°06′33″N 147
联合国大会观察员列表截至2012年，联合国大会共有64个观察员。当中包含2个观察员国、4个观察员实体、和58个观察员组织。联合国在联合国会员国之外，还设有观察员制度，邀请国际组织、非政府组织、实体
多米尼加圣母圣殿多米尼加圣母圣殿（Basilica Minore di Santa Maria in Domnica alla Navicella （意大利文））是意大利罗马的一个罗马天主教宗座圣殿，供奉圣母玛利亚，根据其悠久的传统，活跃于当地慈