信息瓶颈

✍ dations ◷ 2025-11-16 23:26:56 #聚类分析,多变量统计,信息论

信息瓶颈(英语:information bottleneck)是信息论中的一种方法,由纳夫塔利·泰斯比(英语:Naftali Tishby)、费尔南多·佩雷拉(Fernando C. Pereira)与威廉·比亚莱克(英语:William Bialek)于1999年提出。对于一随机变量 X {\displaystyle X} ,假设已知其与观察变量 Y {\displaystyle Y} 之间的联合概率分布 p ( X , Y ) {\displaystyle p(X,Y)} 。此时,当需要概括(聚类) X {\displaystyle X} 时,可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度(数据压缩)。该方法的应用还包括分布聚类(distributional clustering)与降维等。此外,信息瓶颈也被用于分析深度学习的过程。

信息瓶项方法中运用了互信息的概念。假设压缩后的随机变量为 T {\displaystyle T} ,我们试图用 T {\displaystyle T} 代替 X {\displaystyle X} 来预测 Y {\displaystyle Y} 。此时,可使用以下算法得到最优的 T {\displaystyle T}

其中 I ( X ; T ) {\displaystyle I(X;T)} I ( T ; Y ) {\displaystyle I(T;Y)} 分别为 X {\displaystyle X} T {\displaystyle T} 之间、以及 T {\displaystyle T} Y {\displaystyle Y} 之间的互信息,可由 p ( X , Y ) {\displaystyle p(X,Y)} 计算得到。 β {\displaystyle \beta } 则表示拉格朗日乘数。

相关

  • 呼气流量峰值峰值呼气流量(英文:peak expiratory flow,PEF),也称峰值呼气流量测定(英文:peak expiratory flow rate, PEFR)是一个人的最大呼气速度,用峰值流量计测量,一个用于监测一个人呼吸空气能
  • 硫的同素异形体硫有着大量的同素异形体,其数量只是仅次于碳。 硫在自然界中最常见的形式是黄色的正交晶系α-硫,其中包含S8的皱褶环。二硫为硫的双原子分子。在720°C,硫主要以二硫存在。在53
  • 巴登大公国巴登大公国(德语:Großherzogtum Baden)是德国西南部莱茵河东岸曾经存在的一个大公国,国祚由1806年至1918年。巴登地区原为士瓦本地区的一部分,于12世纪开始以巴登藩侯国的名称出
  • 甘素甘素是一种人工甜味剂,它比糖甜250倍,于1884年被Joseph Berlinerbau发现 。它在被发现的7年后开始大量制造。和糖精相比,它有一个优势:它不会在舌根留下一个苦味。然而,虽然它只
  • 革命社会主义革命社会主义(英语:Revolutionary Socialism)不是一种独立的意识形态。它泛指一切反对改良主义的社会主义理论,包括一些以马克思主义为基础的理论(包括卢森堡主义、不可能主义、
  • 喇叭裤喇叭裤(英语:Bell-bottoms)是一种从膝盖处向下变宽,裤腿呈钟形或喇叭形的裤子。19世纪初,美国海军还没有制定标准化的制服时,一些水手穿起了一种裤腿为喇叭形状的宽形裤子。1813年
  • 眼状斑点眼状斑点简称眼斑,是存在于昆虫、爬行动物、鸟类和鱼类身上的眼状图案。而一些猫科哺乳动物身上的环状斑点也有相同作用。眼状斑点可能是一种拟态手段,这种图案形成眼睛图案用
  • 克林斯·布鲁克斯克林斯·布鲁克斯(Cleanth Brooks,1906年10月16日-1994年5月10日),美国文学批评家。一般将其批评方法归之为“细读(英语:Close reading)”,《现代诗与传统》(1939)和《精致的瓮:诗歌结构
  • 朱文熊朱文熊(1883年2月12日-1961年3月4日),乳名杏生,字造五,又字兆弧,江苏昆山陈墓人,清末切音字运动的先驱。朱文熊出生于书香世家,朱文焯、朱文鑫为其族兄弟。他少时中秀才,并曾就学于苏
  • 丁茜属丁茜属(学名:)是茜草科下的一个属,为直立、多枝亚灌木植物。该属仅有丁茜()一种,分布于中国云南。