信息瓶颈

✍ dations ◷ 2024-12-23 00:41:30 #聚类分析,多变量统计,信息论

信息瓶颈(英语:information bottleneck)是信息论中的一种方法,由纳夫塔利·泰斯比(英语:Naftali Tishby)、费尔南多·佩雷拉(Fernando C. Pereira)与威廉·比亚莱克(英语:William Bialek)于1999年提出。对于一随机变量 X {\displaystyle X} ,假设已知其与观察变量 Y {\displaystyle Y} 之间的联合概率分布 p ( X , Y ) {\displaystyle p(X,Y)} 。此时,当需要概括(聚类) X {\displaystyle X} 时,可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度(数据压缩)。该方法的应用还包括分布聚类(distributional clustering)与降维等。此外,信息瓶颈也被用于分析深度学习的过程。

信息瓶项方法中运用了互信息的概念。假设压缩后的随机变量为 T {\displaystyle T} ,我们试图用 T {\displaystyle T} 代替 X {\displaystyle X} 来预测 Y {\displaystyle Y} 。此时,可使用以下算法得到最优的 T {\displaystyle T}

其中 I ( X ; T ) {\displaystyle I(X;T)} I ( T ; Y ) {\displaystyle I(T;Y)} 分别为 X {\displaystyle X} T {\displaystyle T} 之间、以及 T {\displaystyle T} Y {\displaystyle Y} 之间的互信息,可由 p ( X , Y ) {\displaystyle p(X,Y)} 计算得到。 β {\displaystyle \beta } 则表示拉格朗日乘数。

相关

  • 黏液素黏液素(英语:Mucins,或简称黏素)是一类高分子量蛋白家族,且高度糖基化(属于糖缀合物(英语:glycoconjugate)),在大部分后生动物的上皮组织中都有表达。黏液素的特色是它可以构成胶状物;因
  • 球拍球拍是一些球类运动中用来击球的平板状用具。使用球拍的体育运动,包括羽毛球、网球、乒乓球、板球、壁球等。一般来说球拍包括杆状或柱状的手持握部分和板状的击打面组成。乒
  • 布城布城(/pʊtrɑːdʒɑːjə/,英语和马来语:Putrajaya,全称:“布城联邦直辖区”)原名“Prang Besar”,旧译“布特拉再也”和“太子城”,是政府建立的新市镇,也是马来西亚的行政首都,是
  • 林口区坐标:25°04′39″N 121°23′30″E / 25.0775308°N 121.3916021°E / 25.0775308; 121.3916021林口区,旧名树林口,是中华民国新北市所辖29个区之一,除滨海地区的狭窄平原外,主
  • 计算机硬件硬件是电脑的物理设备。系统软件存储在硬件内,包含固件(如BIOS)以及操作系统,系统软件使应用软件可以提供用户所需的功能。操作系统通常借由总线与设备沟通,这就需要驱动程序。计
  • 俄罗斯军区俄罗斯军区是俄罗斯作为俄罗斯武装力量的行政区划的一个系统。每个地区都有一个基于俄罗斯联邦主体的地理区域,以及一个管理各自领土内军事组织的总部。目前俄罗斯有五个军区
  • 约瑟夫·海兹拉尔约瑟夫·海兹拉尔(捷克语:Josef Hejzlar,1927年1月21日-2012年1月4日)是捷克艺术史学家、汉学家。曾在1951年至1956年留学北京大学和中央美术学院,并与齐白石结成忘年交。著有捷克
  • 世界公共网格World Community Grid,中文译名为“世界社群网格”、“世界共同体网格计划”或“世界公共网格”。是由IBM公司主持的一项基于互联网的公益性分布式计算项目,开始于2004年11月1
  • 周劭周劭(1916年-2003年8月31日),字黎庵,中国作家。他自大学时期开始写作。就读于东吴大学法学院,毕业后曾在上海当律师。
  • 董耐芳董耐芳(1923年10月-2014年3月18日),天津人,中华人民共和国政治人物。曾任教于北京师范大学、天津师范学院、河北师范大学,从事高分析化学工作。担任九三学社河北省委主委。1991年4