信息瓶颈

✍ dations ◷ 2025-07-07 21:53:18 #聚类分析,多变量统计,信息论

信息瓶颈(英语:information bottleneck)是信息论中的一种方法,由纳夫塔利·泰斯比(英语:Naftali Tishby)、费尔南多·佩雷拉(Fernando C. Pereira)与威廉·比亚莱克(英语:William Bialek)于1999年提出。对于一随机变量 X {\displaystyle X} ,假设已知其与观察变量 Y {\displaystyle Y} 之间的联合概率分布 p ( X , Y ) {\displaystyle p(X,Y)} 。此时,当需要概括(聚类) X {\displaystyle X} 时,可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度(数据压缩)。该方法的应用还包括分布聚类(distributional clustering)与降维等。此外,信息瓶颈也被用于分析深度学习的过程。

信息瓶项方法中运用了互信息的概念。假设压缩后的随机变量为 T {\displaystyle T} ,我们试图用 T {\displaystyle T} 代替 X {\displaystyle X} 来预测 Y {\displaystyle Y} 。此时,可使用以下算法得到最优的 T {\displaystyle T}

其中 I ( X ; T ) {\displaystyle I(X;T)} I ( T ; Y ) {\displaystyle I(T;Y)} 分别为 X {\displaystyle X} T {\displaystyle T} 之间、以及 T {\displaystyle T} Y {\displaystyle Y} 之间的互信息,可由 p ( X , Y ) {\displaystyle p(X,Y)} 计算得到。 β {\displaystyle \beta } 则表示拉格朗日乘数。

相关

  • COPD慢性阻塞性肺疾病(英语:Chronic obstructive pulmonary disease,缩写为COPD),常简称为慢阻肺。是一种以持续性的气流受限为特征的阻塞性肺疾病(英语:Obstructive lung disease)。其
  • 不宁腿综合征不宁腿綜合症(英语:Restless legs syndrome, RLS),又称睡眠腿动症、不安腿综合征、腿不宁綜合症、Willis-Ekbom病或Wittmaack-Ekbom綜合症是一种强烈想要让腿部移动的障碍。平常
  • 基希讷乌基希讷乌(罗马尼亚语:Chișinău .mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gentium
  • 流行性疾病流行病(Epidemic)指可以感染众多人口的疾病,但不一定为传染病。流行病可以只是在某地区发生,亦可以是全球大流行。欧洲语言中,辞源均来自希腊语,如英语的epidemic,法语的épidémie
  • 商务部长美国商务部(英语:United States Department of Commerce),是美国联邦行政部门之一,负责美国国际贸易、出口管制、贸易救济措施等。美国商务部设美国商务部长(Secretary)、常务副部
  • 喀麦隆喀麦隆华人是指在非洲国家喀麦隆的华侨华人。2008年时,总人口据估计有超过两千。主要分布在杜阿拉、雅温得和巴门达等大城市。多数开办商贸公司、企业和中餐馆。大量华商前往
  • Dromiacea绵蟹派(Dromiacea)是短尾下目下的一个节,包含240种现存的和约300已灭绝的蟹。绵蟹派和绵蟹亚派、圆关公蟹派被认为来自同一个单系群,但是形态学研究得出了相反的结论。绵蟹派的
  • 魔神仔魔神仔(白话字:Mô͘-sîn-á、台罗:môo-sîn-á),是在台湾与福建广泛流传的民间传说中,一种诱导人类到山野间迷失的鬼或者精怪。民俗及人类学研究者根据田野调查采访,普遍认为其
  • 布里亚特语布里亚特语(Буряад хэлэн)——被中国和蒙古国视作蒙古语的一种方言,布里亚特人的语言,与俄语同为布里亚特共和国的官方语言。也通行于乌斯季奥尔登斯基布里亚特自治
  • 刘宜伦刘宜伦(1913年5月11日-2009年11月22日),男,福建长乐人,中国电信网络理论家、教育家。重庆邮电学院院长。第三届全国人大代表,第五、六、七届全国政协委员。1913年5月11日出生于福建