信息瓶颈

✍ dations ◷ 2025-11-26 15:36:18 #聚类分析,多变量统计,信息论

信息瓶颈(英语:information bottleneck)是信息论中的一种方法,由纳夫塔利·泰斯比(英语:Naftali Tishby)、费尔南多·佩雷拉(Fernando C. Pereira)与威廉·比亚莱克(英语:William Bialek)于1999年提出。对于一随机变量 X {\displaystyle X} ,假设已知其与观察变量 Y {\displaystyle Y} 之间的联合概率分布 p ( X , Y ) {\displaystyle p(X,Y)} 。此时,当需要概括(聚类) X {\displaystyle X} 时,可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度(数据压缩)。该方法的应用还包括分布聚类(distributional clustering)与降维等。此外,信息瓶颈也被用于分析深度学习的过程。

信息瓶项方法中运用了互信息的概念。假设压缩后的随机变量为 T {\displaystyle T} ,我们试图用 T {\displaystyle T} 代替 X {\displaystyle X} 来预测 Y {\displaystyle Y} 。此时,可使用以下算法得到最优的 T {\displaystyle T}

其中 I ( X ; T ) {\displaystyle I(X;T)} I ( T ; Y ) {\displaystyle I(T;Y)} 分别为 X {\displaystyle X} T {\displaystyle T} 之间、以及 T {\displaystyle T} Y {\displaystyle Y} 之间的互信息,可由 p ( X , Y ) {\displaystyle p(X,Y)} 计算得到。 β {\displaystyle \beta } 则表示拉格朗日乘数。

相关

  • 人类免疫缺陷病毒人类免疫缺陷病毒(英语:human immunodeficiency virus,簡稱HIV,又称艾滋病毒)是一种感染人类免疫系统细胞的慢病毒,属逆转录病毒的一种。普遍认为,人类免疫缺陷病毒的感染导致艾滋
  • 赫斯瓦尔特·鲁道夫·赫斯(Walter Rudolf Hess,1881年3月17日-1973年4月12日),瑞士医生。由于发现间脑的对内脏的调节功能而获得1949年诺贝尔生理学或医学奖。1901年:贝林  1902年:罗
  • 带菌者带原者指受到传染病的感染或带有隐性(recessive)遗传疾病的不正常基因,却不表现症状的人。即使不受到疾病或基因可感染到的影响,他们仍能够将传染性疾病的病原体散播给其他个体
  • 闽赣语邵将语,又称邵将话、闽赣语,是汉语族闽语支的一种语言,流通区域包括中国福建省的邵武、光泽、顺昌、将乐、明溪、泰宁等县、市。邵将语通行地区处于福建、江西和客家三个文化圈
  • 羽虫鸟或者鸟类是鸟纲(学名:Aves)动物的通称,是唯一存活至今的恐龙,现代所有鸟类在生物学上也被分类为鸟形恐龙(即鸟翼类)的一部分;鸟纲的全体成员均为两足、恒温、卵生、身披羽毛且色彩
  • 通德拉 (葡萄牙)通德拉(Tondela)是葡萄牙的一座城市。面积371.2平方公里。人口有31,026人。管辖有26个堂区。在行政区划上属于维塞乌区。
  • 圆锥摆圆锥摆是一个固定在一根悬挂在中心点上的绳子(或轻杆)的重物。其结构与单摆类似,但重物并不是像单摆一样来回摆动,而是以一个恒定的速度在水平面上做圆周运动,并和细绳(或轻杆)一起
  • 哈维洛克·艾利斯亨利·哈维洛克·艾利斯(英语:Henry Havelock Ellis,1859年2月2日-1939年7月8日)是一位英国医生、性心理学家和研究人类性行为的社会改革者。亨利·哈维洛克·艾利斯的父亲是爱德
  • 虚拟文件系统虚拟文件系统(英语:Virtual file system,缩写为VFS),又称虚拟文件切换系统(virtual filesystem switch),是操作系统的文件系统虚拟层,在其下是实体的文件系统。虚拟文件系统的主要功
  • 斯威特古道斯威特古道(英语:Sweet Track)是一条位于英国萨默塞特平原(英语:Somerset Levels)的堤道(英语:causeway),它的历史可追溯到新石器时代,在公元前3807年或3806年建成,目前是不列颠群岛上第