交叉熵

✍ dations ◷ 2025-11-06 08:43:31 #信息学熵

在信息论中,基于相同事件测度的两个概率分布 p {\displaystyle p} 相对于的)。

对于离散分布 p {\displaystyle p} q {\displaystyle q} ,这意味着:

对于连续分布也是类似的。我们假设 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上是绝对连续的(通常 r {\displaystyle r} 是Lebesgue measure on a Borel σ-algebra)。设 P {\displaystyle P} Q {\displaystyle Q} 分别为 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上概率密度函数。则

在信息论中, 以直接可解编码模式通过值 x i {\displaystyle x_{i}} 编码一个信息片段,使其能在所有可能的 X {\displaystyle X} 集合中唯一标识该信息片段,Kraft–McMillan theorem确保这一过程可以被看作一种 X {\displaystyle X} 上的隐式概率分布 q ( x i ) = 2 l i {\displaystyle q(x_{i})=2^{-l_{i}}} ,从而使得 l i {\displaystyle l_{i}} x i {\displaystyle x_{i}} 的编码位长度。 因此, 交叉熵可以看作每个信息片段在错误分布 Q {\displaystyle Q} 下的期望编码位长度,而信息实际分布为 P {\displaystyle P} 。这就是期望 E p {\displaystyle {E}_{p}} 是基于 P {\displaystyle P} 而不是 Q {\displaystyle Q} 的原因。

在大多数情况下,我们需要在不知道分布 p {\displaystyle p} 的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集 T {\displaystyle T} 创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。 p {\displaystyle p} 是语料中词汇的真实分布,而 q {\displaystyle q} 是我们获得的语言模型预测的词汇分布。由于真实分布是未知的,我们不能直接计算交叉熵。在这种情况下,我们可以通过下式来估计交叉熵:

N {\displaystyle N} 是测试集大小, q ( x ) {\displaystyle q(x)} 是在训练集上估计的事件 x {\displaystyle x} 发生的概率。我们假设训练集是从 p ( x ) {\displaystyle p(x)} 的真实采样,则此方法获得的是真实交叉熵的蒙特卡洛估计。

相关

  • 白醋白醋是醋的一种。除了3-5%醋酸和水之外不含或极少含其他成分。以蒸馏过的酒发酵制成,或直接用食品级别的醋酸兑制。无色,味道单纯。用于烹调,特别是西餐中用来制作泡菜(酸味来自
  • 香槟酒香槟酒或香槟(英文:Champagne)(法语:vin de Champagne)是产于法国香槟地区(不同于干邑地区的大小香槟区)按照严格的法律规定酿造的的一种葡萄气泡酒。香槟酒需要在葡萄酒瓶中进行二
  • 管晓宏管晓宏(1955年11月3日-),中国科学院院士,网络化系统特别是能源电力系统优化与安全理论与应用方面的研究学者。1955年出生于四川泸州,毕业于清华大学,后留学美国康乃狄克大学。他目
  • 学券制学券制,又称为教育券制。这是美国经济学家米尔顿·弗里德曼提倡的一种政府教育补贴制度。与直接给公立学校发放教育经费不同,政府向家长发放教育代金券。主要目的在于,在维持政
  • 第三阶级在法国旧制度中,第三等级(法语:Tiers état)指的是当时法国社会中除了教士阶级、贵族阶级之外的其他公民组成的阶级。第三等级不像前两个等级一般拥有封建特权,并且担负纳税和其
  • 彼得·戴蒙德彼得·阿瑟·戴蒙德(英语:Peter Arthur Diamond,1940年4月29日-),美国犹太裔经济学家、麻省理工学院教授,以对最优税收理论的研究而知名。2010年,他与戴尔·莫滕森、克里斯托弗·皮
  • 俄罗斯总理俄罗斯总理,正式名称为俄罗斯联邦政府主席(俄语:Председатель Правительства,中文也称俄罗斯联邦政府总理或俄罗斯联邦总理)是俄罗斯联邦政府的首脑,俄
  • 自动标引自动标引(英语:Automatic Indexing)包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词
  • 㐷姓《百家姓》中无此姓㐷姓是一个中国罕见姓氏,主要分布于山东省滨州市惠民县辛店镇㐷家村。此姓的来源说法不一,《玉篇》《广韵》记载春秋时期有齐国大夫以此为名,或成为其最早的
  • 河上彦斋河上彦斋(1834年12月25日-1872年1月13日,天保五年十一月廿五 - 明治四年十二月初四)。尊王攘夷派的日本武士和熊本藩士。讳玄明。幕末四大人斩之一。文久三年(1863年)30歳时,被同格