互信息

✍ dations ◷ 2025-11-19 01:48:26 #信息论,信息学熵

在概率论和信息论中,两个随机变量的互信息(mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息是点间互信息(英语:Pointwise mutual information)(PMI)的期望值。互信息最常用的单位是bit。

一般地,两个离散随机变量 和 的互信息可以定义为:

其中 (, ) 是 和 的联合概率分布函数,而 p ( x ) {\displaystyle p(x)} 和 的边缘概率分布函数。

在连续随机变量的情形下,求和被替换成了二重定积分:

其中 (, ) 当前是 和 的联合概率函数,而 p ( x ) {\displaystyle p(x)} 和 的边缘概率密度函数。

如果对数以 2 为基底,互信息的单位是bit。

直观上,互信息度量 和 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 和 相互独立,则知道 不对 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 是 的一个确定性函数,且 也是 的一个确定性函数,那么传递的所有信息被 和 共享:知道 决定 的值,反之亦然。因此,在此情形互信息与 (或 )单独包含的不确定度相同,称作 (或 )的熵。而且,这个互信息与 的熵和 的熵相同。(这种情形的一个非常特殊的情况是当 和 为相同随机变量时。)

互信息是 和 的联合分布相对于假定 和 独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性:(; ) = 0 当且仅当 和 为独立随机变量。从一个方向很容易看出:当 和 独立时,(,) = () (),因此:

此外,互信息是非负的(即 I ( X ; Y ) 0 {\displaystyle I(X;Y)\geq 0} (|) 和 (|) 是条件熵,而 (,) 是 和 的联合熵。注意到这组关系和并集、差集和交集的关系类似,于是用Venn图表示。

在互信息定义的基础上使用琴生不等式,我们可以证明 (;) 是非负的,因此   H ( X ) H ( X | Y ) {\displaystyle \ H(X)\geq H(X|Y)} () 看作一个随机变量于不确定度的量度,那么 (|) 就是"在已知 事件后事件会发生"的不确定度。于是第一个等式的右边就可以读作“将"Y事件的不确定度",减去 --- "在基于事件后事件因此发生的不确定度"”。

这证实了互信息的直观意义为: "因X而有Y事件"的熵( 基于已知随机变量的不确定性) 在"Y事件"的熵之中具有多少影响地位( "Y事件所具有的不确定性" 其中包含了多少 "Y|X事件所具有的不确性" ),意即"Y具有的不确定性"有多少程度是起因于X事件;

    

所以具体的解释就是: 互信息越小,两个来自不同事件空间的随机变量彼此之间的关系性越低; 互信息越高,关系性则越高 。


注意到离散情形 (|) = 0,于是 () = (;)。因此 (;) ≥ (;),我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的信息“的基本原理。

互信息也可以表示为两个随机变量的边缘分布 和 的乘积 () × () 相对于随机变量的联合熵 (,) 的相对熵:

此外,令 (|) = (, ) / ()。则

注意到,这里相对熵涉及到仅对随机变量 积分,表达式 D K L ( p ( x | y ) p ( x ) ) {\displaystyle D_{\mathrm {KL} }(p(x|y)\|p(x))} 为变量。于是互信息也可以理解为相对熵 的单变量分布 () 相对于给定 时 的条件分布 (|) :分布 (|) 和 () 之间的平均差异越大,信息增益越大。

对连续型随机变量量化的定义如下:

f ( x i ) Δ = i Δ ( i + 1 ) Δ f ( x ) d x = p i {\displaystyle f(x_{i})\Delta =\int _{i\Delta }^{(i+1)\Delta }f(x)dx=p_{i}}

量化后的随机变量 X Δ {\displaystyle X^{\Delta }} :

X Δ = x i , i Δ X < ( i + 1 ) Δ {\displaystyle X^{\Delta }=x_{i},i\Delta \leq X<(i+1)\Delta }

则,

I ( X Δ ; Y Δ ) = H ( X Δ ) H ( X Δ | Y Δ ) {\displaystyle I(X^{\Delta };Y^{\Delta })=H(X^{\Delta })-H(X^{\Delta }|Y^{\Delta })}

h ( X ) l o g Δ ( h ( X | Y ) l o g Δ ) {\displaystyle \approx h(X)-log{\Delta }-(h(X|Y)-log{\Delta })}

= I ( X ; Y ) {\displaystyle =I(X;Y)}

广义而言,我们可以将互信息定义在有限多个连续随机变量值域的划分。

χ {\displaystyle \chi } 为连续型随机变量的值域, P i P {\displaystyle P_{i}\in P} , 其中 P {\displaystyle P} χ {\displaystyle \chi } 划分所构成的集合,意即 i P i = χ {\displaystyle \cup _{i}P_{i}=\chi }

P {\displaystyle P} 量化连续型随机变量 X {\displaystyle X} 后,所得结果为离散型随机变量,

P r ( P = i ) = P i d F ( x ) {\displaystyle Pr(_{P}=i)=\int _{P_{i}}dF(x)}

对于两连续型随机变量X、Y,其划分分别为P、Q,则其互信息可表示为:

I ( X ; Y ) = s u p P , Q I ( P ; Q ) {\displaystyle I(X;Y)={\underset {P,Q}{sup}}I(_{P};_{Q})}


相关

  • 脊髓丘脑束脊髓丘脑束(spinothalamic tract),又称前外侧系统(anterolateral system)或腹外侧系统(ventrolateral system)属于感觉神经途径,负责将皮肤信息传回丘脑,丘脑的腹外侧核(英语:ventral p
  • 酪氨酸酪氨酸、酪胺酸(Tyrosine, 缩写为 Tyr or Y) 或 4 - 羟基苯丙氨酸, 是细胞用来合成蛋白质的22种氨基酸之一,在细胞中可用于合成蛋白质,其密码子为UAC和UAU,属于含有极性侧基,人体
  • 偏肺病毒人类偏肺病毒(hMPV)是副黏液病毒科下的一种单链核糖核酸病毒,于2001年在荷兰被首度发现。病毒主要令儿童受急性呼吸道感染,病征包括发烧、咳嗽、气促及呼吸困难等。抵抗力弱的成
  • 格鲁吉亚拉里拉里(格鲁吉亚语:ლარი,ISO代码:GEL),格鲁吉亚的官方货币单位。每一拉里可以分为100特瑞(英语:tetri)。“拉里”一词是一个古老的格鲁吉亚词语,含义为储藏,而“特瑞”是科尔基斯地区
  • 1945年5月8日欧战胜利纪念日,美国以及西欧国家定于每年的5月8日,俄罗斯等东欧国家定于每年的5月9日。以纪念1945年5月8日纳粹德国在柏林正式签订投降书,宣布在第二次世界大战中无条件投降。
  • 尿液滞留尿潴留(英语:renal retention或 urinary retention),又称尿滞留、尿液滞留,是膀胱内的尿液无法排出的状况,最常见的原因是良性前列腺增生症。正常成年男性的膀胱涨满时,容积约为500
  • 阿勒颇大清真寺阿勒颇大清真寺(阿拉伯语:جامع حلب الكبير‎),又名阿勒颇倭马亚清真寺(阿拉伯语:جامع بني أمية بحلب‎),是叙利亚第一大城市阿勒颇主要的清真寺,位于阿
  • 坎特伯雷大学坎特伯雷大学(毛利语:Te Whare Wānanga o Waitaha,英语:University of Canterbury)位于新西兰的克赖斯特彻奇,成立于1873年,是新西兰成立较早的大学之一,由牛津大学的学者创建。该
  • 佛蒙特大学佛蒙特大学是位于美国佛蒙特州伯灵顿的一所研究型公立大学,于1862年后成为赠地大学。佛蒙特大学通常被称为“UVM”,来源于拉丁文“Universitas Viridis Montis”(绿山大学)。佛
  • 斑臭鼬属西部斑臭鼬 Spilogale gracilis 东部斑臭鼬 Spilogale putorius 小斑臭鼬 Spilogale pygmaea Spilogale angustifrons斑臭鼬属(学名Spilogale),臭鼬科的一属,包括三到四种,分布于