信息瓶颈

✍ dations ◷ 2025-04-26 12:30:37 #聚类分析,多变量统计,信息论

信息瓶颈(英语:information bottleneck)是信息论中的一种方法,由纳夫塔利·泰斯比(英语:Naftali Tishby)、费尔南多·佩雷拉(Fernando C. Pereira)与威廉·比亚莱克(英语:William Bialek)于1999年提出。对于一随机变量 X {\displaystyle X} ,假设已知其与观察变量 Y {\displaystyle Y} 之间的联合概率分布 p ( X , Y ) {\displaystyle p(X,Y)} 。此时,当需要概括(聚类) X {\displaystyle X} 时,可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度(数据压缩)。该方法的应用还包括分布聚类(distributional clustering)与降维等。此外,信息瓶颈也被用于分析深度学习的过程。

信息瓶项方法中运用了互信息的概念。假设压缩后的随机变量为 T {\displaystyle T} ,我们试图用 T {\displaystyle T} 代替 X {\displaystyle X} 来预测 Y {\displaystyle Y} 。此时,可使用以下算法得到最优的 T {\displaystyle T}

其中 I ( X ; T ) {\displaystyle I(X;T)} I ( T ; Y ) {\displaystyle I(T;Y)} 分别为 X {\displaystyle X} T {\displaystyle T} 之间、以及 T {\displaystyle T} Y {\displaystyle Y} 之间的互信息,可由 p ( X , Y ) {\displaystyle p(X,Y)} 计算得到。 β {\displaystyle \beta } 则表示拉格朗日乘数。

相关

  • 高基氏体高尔基体(英语:Golgi apparatus)是真核细胞中的一种细胞器。属于细胞的一组膜,专门收集并包裹各种物质,例如酶和激素。这些膜形成像一堆平板的扁囊,部分扁囊常常脱离并移向质膜,一
  • 亲密关系亲密关系是人际关系的一种。它有如下几个特点:亲密关系在人类的生活经历方面占有举足轻重的地位。人类与生俱来地具有一种归属感和去爱别人的需要,而当这些需要被满足时,亲密关
  • 医缓医缓(生卒年不可考),是传说中中国春秋时期秦国的医家。其姓不可考,名缓,因其职,人称医缓。其主要生平不可考,描述医缓的文献详见于《左传·成公十年》和《通志》两书。前581年,晋景
  • 泛阿拉伯颜色泛阿拉伯颜色起源于阿拉伯大起义旗,广泛被阿拉伯国家选为国旗的颜色。包括了红、黑、白、绿四色。
  • MyNetworkTVMyNetworkTV(MNT、MNTV)是美国的一家电视网。为福斯公司的旗下公司。自2006年9月5日开始运营。2006年1月24日,WB的母公司时代华纳和运营UPN的CBS股份公司宣布关闭这两家电视台,
  • 1974年国际足联世界杯1974年国际足联世界杯于1974年6月13日至7月7日于西德举行。东道主西德队在决赛中以 2–1 战胜橙色军团荷兰,于1954年后再次夺得世界杯冠军。本届比赛首次使用是现今的“FIFA
  • 莉迪亚·乐甫歌娃莉迪亚·乐甫歌娃(俄语:Ли́дия Васи́льевна Лопухо́ва,1892年10月21日-1981年6月8日),约翰·梅纳德·凯恩斯之妻子,俄国著名芭蕾舞者。1921年凯恩斯陷入
  • 朱台浤庆定王朱台浤(1475年-1551年),明朝第六代庆王,恭王朱寘錖的庶第一子。弘治十六年(1503年)袭封庆王,在位二十一年。嘉靖三年(1524年),朱台浤因贿赂镇守太监李昕、总兵官种勋,及在安化王之
  • 对偶范数对偶范数是数学中泛函分析里的概念。考虑一个赋范向量空间的对偶空间时,常常需要给对偶空间赋以合适的几何架构。对偶范数是一种自然的赋范方式。给定一个系数域为
  • 毛长禧毛长禧(佐渡山亲云上安健,1806年-1865年)是琉球国第二尚氏王朝的宫廷画师、书法家、汉学者。他被认为是琉球国“五大画人”之一,其作品包括尚灏王、尚育王及尚纯的御后绘。传世作