信息瓶颈

✍ dations ◷ 2025-08-25 00:29:28 #聚类分析,多变量统计,信息论

信息瓶颈（英语：information bottleneck）是信息论中的一种方法，由纳夫塔利·泰斯比（英语：Naftali Tishby）、费尔南多·佩雷拉（Fernando C. Pereira）与威廉·比亚莱克（英语：William Bialek）于1999年提出。对于一随机变量 $X {\displaystyle X}$ $X$ ，假设已知其与观察变量 $Y {\displaystyle Y}$ $Y$ 之间的联合概率分布 $p(X,Y)$ $p(X,Y)$ 。此时，当需要概括（聚类） $X {\displaystyle X}$ $X$ 时，可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度（数据压缩）。该方法的应用还包括分布聚类（distributional clustering）与降维等。此外，信息瓶颈也被用于分析深度学习的过程。

信息瓶项方法中运用了互信息的概念。假设压缩后的随机变量为 $T {\displaystyle T}$ $T$ ，我们试图用 $T {\displaystyle T}$ $T$ 代替 $X {\displaystyle X}$ $X$ 来预测 $Y {\displaystyle Y}$ $Y$ 。此时，可使用以下算法得到最优的 $T {\displaystyle T}$ $T$ ：

其中 $I(X;T)$ $I(X;T)$ 与 $I(T;Y)$ $I(T;Y)$ 分别为 $X {\displaystyle X}$ $X$ 与 $T {\displaystyle T}$ $T$ 之间、以及 $T {\displaystyle T}$ $T$ 与 $Y {\displaystyle Y}$ $Y$ 之间的互信息，可由 $p(X,Y)$ $p(X,Y)$ 计算得到。 $\beta$ $\beta$ 则表示拉格朗日乘数。

相关

季蒂昂的芝诺季蒂昂的芝诺（Ζήνων，前335年－前263年），古希腊哲学家（不同于公元前五世纪的埃利亚的芝诺），出生于塞浦路斯的季蒂昂（Citium），于公元前313年左右到雅典研究哲学，受到苏格拉底、赫拉克
手语新闻手语新闻，泛指于电视台播出的新闻报道节目时，由主播用手语报道新闻或用口语报道新闻时加插手语传译。
南京大学医学院南京大学医学院历史悠久，同时又是南京大学的新兴学院之一。前身是原国立中央大学医学院，1949年改名南京大学医学院并于三年后分出。1987年南京大学医学院复建，是全国综合性大学
Swiss-ProtUniProt（联合的蛋白）是一个全面的，高质量的，免费使用的蛋白质序列与功能信息数据库，许多内容来自基因组计划，它还包含了大量来自研究文献的关于蛋白的生物学功能信息。UniProt共同
马来亚马来亚（马来语：Melaya；英语：Malaya）可以指：
萨蒙·蔡斯萨蒙·波特兰·蔡斯（Salmon Portland Chase，1808年1月13日 - 1873年5月7日），是美国政治家和法学家，曾任美国参议院议员（1849年-1855年）、第23任俄亥俄州州长（1856年-1860年）、第25任
纤连蛋白1E88, 1E8B, 1FBR, 1FNA, 1FNF, 1FNH, 1J8K, 1O9A, 1OWW, 1Q38, 1QGB, 1QO6, 1TTF, 1TTG, 2CG6, 2CG7, 2CK2, 2CKU, 2EC3, 2FN2, 2FNB, 2GEE, 2H41, 2H45, 2HA1, 2OCF, 2RKY
前子前子（英语：Preon）是在理论上构成夸克和轻子的亚原子粒子。这个粒子的名称首先由乔杰什·帕蒂（英语：Jogesh Pati）和阿卜杜勒·萨拉姆于1974年提出。
玛利亚·埃曼努埃尔玛利亚·埃曼努埃尔（德语：Maria Emanuel，1926年1月31日－2012年7月23日），生于德国雷根斯堡，迈森藩侯，维丁家族阿贝丁系族长，萨克森王位继承人。玛利亚·埃曼努埃尔是迈森藩侯弗里德里
李叔同李叔同（1880年10月23日－1942年10月13日），谱名文涛，幼名成蹊，学名广侯，字息霜，别号漱筒；出家后法名演音，号弘一，晚号晚晴老人。生于天津，祖籍山西洪洞，民初迁到天津，因其生母本为浙江平湖农