交叉熵

✍ dations ◷ 2025-03-07 11:17:37 #信息学熵

在信息论中,基于相同事件测度的两个概率分布 p {\displaystyle p} 相对于的)。

对于离散分布 p {\displaystyle p} q {\displaystyle q} ,这意味着:

对于连续分布也是类似的。我们假设 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上是绝对连续的(通常 r {\displaystyle r} 是Lebesgue measure on a Borel σ-algebra)。设 P {\displaystyle P} Q {\displaystyle Q} 分别为 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上概率密度函数。则

在信息论中, 以直接可解编码模式通过值 x i {\displaystyle x_{i}} 编码一个信息片段,使其能在所有可能的 X {\displaystyle X} 集合中唯一标识该信息片段,Kraft–McMillan theorem确保这一过程可以被看作一种 X {\displaystyle X} 上的隐式概率分布 q ( x i ) = 2 l i {\displaystyle q(x_{i})=2^{-l_{i}}} ,从而使得 l i {\displaystyle l_{i}} x i {\displaystyle x_{i}} 的编码位长度。 因此, 交叉熵可以看作每个信息片段在错误分布 Q {\displaystyle Q} 下的期望编码位长度,而信息实际分布为 P {\displaystyle P} 。这就是期望 E p {\displaystyle {E}_{p}} 是基于 P {\displaystyle P} 而不是 Q {\displaystyle Q} 的原因。

在大多数情况下,我们需要在不知道分布 p {\displaystyle p} 的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集 T {\displaystyle T} 创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。 p {\displaystyle p} 是语料中词汇的真实分布,而 q {\displaystyle q} 是我们获得的语言模型预测的词汇分布。由于真实分布是未知的,我们不能直接计算交叉熵。在这种情况下,我们可以通过下式来估计交叉熵:

N {\displaystyle N} 是测试集大小, q ( x ) {\displaystyle q(x)} 是在训练集上估计的事件 x {\displaystyle x} 发生的概率。我们假设训练集是从 p ( x ) {\displaystyle p(x)} 的真实采样,则此方法获得的是真实交叉熵的蒙特卡洛估计。

相关

  • 钻石钻石结构,也叫金刚石结构,以金刚石的晶体结构命名,空间晶格为面心立方晶格,每个晶格点的基元包含两个相同的原子,分别位在000和
  • 森和俊森和俊(日语:森 和俊/もり かずとし Mori Kazutoshi,1958年7月7日-),日本生物学家,专长分子生物学、细胞生物学、生物物理学。现任京都大学教授。紫绶褒章表彰。文化功劳者。森教授
  • 潮汐发电站潮汐发电是种水力发电的形式,利用潮汐水流的移动,或是潮汐海面的升降,自其中取得能量。虽然尚未被广泛使用,潮汐发电对于未来的电力供应有很好的潜力。此外它比风能、太阳能都更
  • 京斯敦金斯敦(英语:Kingston),牙买加的首都,也是牙买加首要的港口。它是加勒比海地区较大的都会区之一。金斯敦城是由英国人所建立的,主要目的是为作为运输甘蔗至欧洲。1907年,一场地震使
  • 鲤鱼山鲤鱼山可以指:
  • 金日成的个人崇拜朝鲜的个人崇拜是指朝鲜民主主义人民共和国人民对该国执政家族——金日成家族的个人崇拜,此偶像崇拜自首任领导金日成于1948年掌管权力后一直延续至今。因此,这也成为了朝鲜文
  • 里奥马焦雷城堡里奥马焦雷城堡(意大利语:Castello di Riomaggiore)是意大利拉斯佩齐亚省五渔村地区里奥马焦雷的一座历史建筑。最初用于防御目的,后来曾改为公墓,现在由当地市政当局用作会议室
  • 方尔谦方尔谦(1872年-1936年),字地山,号无隅,别号大方,江苏江都人,收藏家、古钱币学家。与其弟方泽山被并称为“二方”。他16岁时曾被选拨贡生,但无意仕途,1889年外出远游并设馆授徒。其后,曾
  • 吉姆·帕森斯詹姆斯·约瑟夫·“吉姆”·帕森斯(英语:James Joseph "Jim" Parsons,1973年3月24日-),美国电视和电影男演员。他扮演的最为人熟知的角色是CBS电视台情景喜剧《生活大爆炸》中的谢
  • 1+1 Play 'n' Fun珍选集《1+1 Play 'n' Fun珍选集》 是台湾歌手卓文萱首张精选辑,第5张个人专辑,于2009年11月6日正式发行,6首新歌、17首精选,一共收录23首歌曲。CD 1CD 2DVD预购时间:2009年10月16日至2