交叉熵

✍ dations ◷ 2025-09-11 06:37:42 #信息学熵

在信息论中,基于相同事件测度的两个概率分布 p {\displaystyle p} 相对于的)。

对于离散分布 p {\displaystyle p} q {\displaystyle q} ,这意味着:

对于连续分布也是类似的。我们假设 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上是绝对连续的(通常 r {\displaystyle r} 是Lebesgue measure on a Borel σ-algebra)。设 P {\displaystyle P} Q {\displaystyle Q} 分别为 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上概率密度函数。则

在信息论中, 以直接可解编码模式通过值 x i {\displaystyle x_{i}} 编码一个信息片段,使其能在所有可能的 X {\displaystyle X} 集合中唯一标识该信息片段,Kraft–McMillan theorem确保这一过程可以被看作一种 X {\displaystyle X} 上的隐式概率分布 q ( x i ) = 2 l i {\displaystyle q(x_{i})=2^{-l_{i}}} ,从而使得 l i {\displaystyle l_{i}} x i {\displaystyle x_{i}} 的编码位长度。 因此, 交叉熵可以看作每个信息片段在错误分布 Q {\displaystyle Q} 下的期望编码位长度,而信息实际分布为 P {\displaystyle P} 。这就是期望 E p {\displaystyle {E}_{p}} 是基于 P {\displaystyle P} 而不是 Q {\displaystyle Q} 的原因。

在大多数情况下,我们需要在不知道分布 p {\displaystyle p} 的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集 T {\displaystyle T} 创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。 p {\displaystyle p} 是语料中词汇的真实分布,而 q {\displaystyle q} 是我们获得的语言模型预测的词汇分布。由于真实分布是未知的,我们不能直接计算交叉熵。在这种情况下,我们可以通过下式来估计交叉熵:

N {\displaystyle N} 是测试集大小, q ( x ) {\displaystyle q(x)} 是在训练集上估计的事件 x {\displaystyle x} 发生的概率。我们假设训练集是从 p ( x ) {\displaystyle p(x)} 的真实采样,则此方法获得的是真实交叉熵的蒙特卡洛估计。

相关

  • 九乘九文具专家商证股份有限公司(英语:9x9 Stationery Proficient Co., Ltd.,通称:九乘九文具专家),为台湾一间专营文具的连锁专卖店品牌,由商祐彰、林嘉慧夫妇于1996年11月23日于高雄创立第一家
  • 广播联卖广播联卖(英语:Broadcast syndication)是指在广播网不经手的情况下,各电视台和广播电台直接获取电视和广播节目的播放权。在节目播出时间是由全国广播网与独立地方结盟电台协调
  • 方法学方法学 (又称为方法论) ,是哲学用语,指的是研究如何处理问题的一个哲学分支。南宋哲学家朱熹的格物致知论是方法论的典型例子。法国哲学家笛卡儿在1637年出版的哲学论著《谈谈
  • 密铺密铺(Tessellation)或称平面填充、细分曲面(subdivision surface),是指把一些较小的表面填满一个较大的表面而不留任何空隙。在数学上,密铺可以推广到更高的维度,称为空间填充。 有
  • 清硬颚擦音清硬颚擦音,又称中舌面清擦音。发音时候舌面中部擡起,气流通过舌面中部发出摩擦的声音,并且声带不振动。德语dicht 的ch就是这个音,日语“人”(ひと,hito)的ひ也是这个音。上海话“
  • 远山景任远山景任(1537年-1573年1月6日)是日本战国时代武将。岩村远山氏当主。美浓国惠那郡岩村城城主。父亲是远山景前。妻子是织田信长的叔母岩村殿。别名大和守、友通、左卫门尉、修
  • 最低危害值最低危害值(Minimal Risk Level,MRL)又可称为每日安全剂量、最小风险水平(MRL值)或最大残留限量。根据有毒物质和疾病登记机构所定的意思,简单的说就是指一个人每天暴露在有害
  • 大藏卿局大藏卿局(?-1615年6月4日),是日本战国时代至江户时代初期的女性。丹后国地侍大野定长的妻子。儿子有大野治长、治房、治胤、治纯。担任淀殿和丰臣秀赖的乳母。丰臣秀吉死后,秀吉的
  • 圆环贝属见内文圆环贝属(学名:)是Cyclothyrididae科圆窗贝亚科下已灭绝的一个属,生存在白垩纪的海洋中。这种腕足动物的体型相对较大,壳的外型宽阔,近三角形。它们的嘴是直立的,并有一个大
  • 阳光运动园区阳光运动园区,位于台湾新北市新店区,是经由整顿拆迁违建工厂,改造而成的休闲场地,位于新店溪左岸中安便桥旁高滩地,占地面积约20公顷。 昔日名为“暗坑”或“暗仔坑”的新店安坑