信息瓶颈

✍ dations ◷ 2025-11-20 00:38:19 #聚类分析,多变量统计,信息论

信息瓶颈(英语:information bottleneck)是信息论中的一种方法,由纳夫塔利·泰斯比(英语:Naftali Tishby)、费尔南多·佩雷拉(Fernando C. Pereira)与威廉·比亚莱克(英语:William Bialek)于1999年提出。对于一随机变量 X {\displaystyle X} ,假设已知其与观察变量 Y {\displaystyle Y} 之间的联合概率分布 p ( X , Y ) {\displaystyle p(X,Y)} 。此时,当需要概括(聚类) X {\displaystyle X} 时,可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度(数据压缩)。该方法的应用还包括分布聚类(distributional clustering)与降维等。此外,信息瓶颈也被用于分析深度学习的过程。

信息瓶项方法中运用了互信息的概念。假设压缩后的随机变量为 T {\displaystyle T} ,我们试图用 T {\displaystyle T} 代替 X {\displaystyle X} 来预测 Y {\displaystyle Y} 。此时,可使用以下算法得到最优的 T {\displaystyle T}

其中 I ( X ; T ) {\displaystyle I(X;T)} I ( T ; Y ) {\displaystyle I(T;Y)} 分别为 X {\displaystyle X} T {\displaystyle T} 之间、以及 T {\displaystyle T} Y {\displaystyle Y} 之间的互信息,可由 p ( X , Y ) {\displaystyle p(X,Y)} 计算得到。 β {\displaystyle \beta } 则表示拉格朗日乘数。

相关

  • 威格斯图威格斯图(英语:Wiggers diagram),用于心脏生理学的标准图,由卡尔J.威格斯(英语:Carl J. Wiggers)博士的名字命名,特色是将心脏生理的各种数据同时绘出,以便比较其中差异。X轴是用来绘
  • 商业电视商业广播,或简称为商业媒体,是以营利为目的的广播行为,多以播放商业广告与否为标准。基本上,公共广播以外的传播媒体即为商业广播。商业广播为现今多数大众传播媒体采用的运作方
  • 新畿内亚新几内亚(英语:New Guinea;巴布亚皮钦语:Niugini;印尼语:Papua)位于澳大利亚北面,是世界上第二大岛屿。有时,本岛亦被称为“巴布亚”,但有时巴布亚亦单指本岛的一部分。此外,印尼官方过
  • 达勒姆 (北卡罗来纳州)达勒姆(英语:Durham,又译德罕)是一座位于美国北卡罗来纳州达勒姆县的城市,也是该县的县治所在地。达勒姆是美国东岸的大学城之一,著名的私立学校杜克大学就位于该市。人口204,845
  • 伊萨克·阿尔贝尼斯伊萨克·曼努埃尔·弗兰西斯科·阿尔贝尼斯·帕斯卡尔(西班牙语:Isaac Manuel Francisco Albéniz Pascual,1860年5月29日-1909年5月18日),西班牙作曲家,钢琴家。阿尔贝尼斯4岁登台
  • 2019年意大利大奖赛2019年意大利大奖赛(英语:2019 Italian Grand Prix),官方名称为2019年一级方程式赛车海尼根意大利大奖赛(意大利语:Formula 1 Gran Premio Heineken d'Italia 2019),是2019年9月6日
  • 椿泉椿泉(?年12月11日-)是日本女性漫画家,埼玉县出身,以《拇指罗曼史》获得第28回(2003年)白泉社雅典娜新人大赏的“新作优秀者赏”。双胞胎妹妹古贺よしき也是漫画家。
  • 南联站† 路线图不按真实比例,仅供参考.南联站是深圳地铁3号线一个使用中的车站,位于深圳市龙岗区龙岗街道龙岗大道近碧新路,于2010年12月28日正式启用,为高架站。南联站位于龙岗区龙
  • 芦笛岩芦笛岩位于广西桂林市西北郊的芦笛公园内的光明山上,因为其洞口长有可以做芦笛的芦笛草得名(一说是因为该草被吹响的声音似笛声)。芦笛岩常与七星岩并称为芦笛七星岩,是桂林山水
  • 约翰州立博物馆约翰州立博物馆(Universalmuseum Joanneum;Landesmuseum Joanneum)是一个多学科博物馆,主题领域包括考古学、地质学、古生物学、矿物学、植物学、动物学、历史和艺术等,设在奥地