交叉熵

✍ dations ◷ 2025-10-12 09:52:32 #信息学熵

在信息论中,基于相同事件测度的两个概率分布 p {\displaystyle p} 相对于的)。

对于离散分布 p {\displaystyle p} q {\displaystyle q} ,这意味着:

对于连续分布也是类似的。我们假设 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上是绝对连续的(通常 r {\displaystyle r} 是Lebesgue measure on a Borel σ-algebra)。设 P {\displaystyle P} Q {\displaystyle Q} 分别为 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上概率密度函数。则

在信息论中, 以直接可解编码模式通过值 x i {\displaystyle x_{i}} 编码一个信息片段,使其能在所有可能的 X {\displaystyle X} 集合中唯一标识该信息片段,Kraft–McMillan theorem确保这一过程可以被看作一种 X {\displaystyle X} 上的隐式概率分布 q ( x i ) = 2 l i {\displaystyle q(x_{i})=2^{-l_{i}}} ,从而使得 l i {\displaystyle l_{i}} x i {\displaystyle x_{i}} 的编码位长度。 因此, 交叉熵可以看作每个信息片段在错误分布 Q {\displaystyle Q} 下的期望编码位长度,而信息实际分布为 P {\displaystyle P} 。这就是期望 E p {\displaystyle {E}_{p}} 是基于 P {\displaystyle P} 而不是 Q {\displaystyle Q} 的原因。

在大多数情况下,我们需要在不知道分布 p {\displaystyle p} 的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集 T {\displaystyle T} 创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。 p {\displaystyle p} 是语料中词汇的真实分布,而 q {\displaystyle q} 是我们获得的语言模型预测的词汇分布。由于真实分布是未知的,我们不能直接计算交叉熵。在这种情况下,我们可以通过下式来估计交叉熵:

N {\displaystyle N} 是测试集大小, q ( x ) {\displaystyle q(x)} 是在训练集上估计的事件 x {\displaystyle x} 发生的概率。我们假设训练集是从 p ( x ) {\displaystyle p(x)} 的真实采样,则此方法获得的是真实交叉熵的蒙特卡洛估计。

相关

  • 灭绝营纳粹集中营转移营比利时:布伦东克堡垒 · 梅赫伦转移营法国:居尔集中营 · 德朗西集中营意大利:波尔查诺转移营荷兰:阿默斯福特集中营 · 韦斯特博克转移营挪威:法斯塔德集中营部
  • 珀西瓦尔斯宾塞·珀西瓦尔(英语:Spencer Perceval,1762年11月1日-1812年5月11日),英国政治家,于1809年至1812年出任英国首相,是历史上唯一一位遇刺身亡的英国首相。珀西瓦尔是约翰·珀西瓦尔
  • 童话童话是一种小说体裁的儿童文学作品,文字通俗,像儿童说话一样。一般童话里有很多超自然人物,像会说话的动物、精灵、仙子、巨人、巫婆等。在现代西方文学的写作方法中,“童话故事
  • 载人国际空间站载人发射任务列表列出了国际空间站截至当前的所有载人发射任务。国际空间站的长期考察队员(远征队成员)在表格中以粗体标示,而对接时间一栏列出的是航天器的对接时间
  • 炯奈语炯奈语是广西壮族自治区自称“炯奈”(.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Ge
  • 长衡保卫战长衡会战,或称湖南会战,是指1944年(民国33年)5月至8月,在中国抗日战争的豫湘桂会战(1号作战)中,中国第9战区部队在湖南长沙、衡阳地区对日军进行的防御战役。学术界也将“长衡会战”
  • 南乔丹市南乔丹(英文:South Jordan),是美国犹他州盐湖县境内的一座城市。建市于 1859年,面积大约为22.13平方英里(57.3平方公里),海拔约为4,439英尺(1,353米)。根据2010年美国人口普查,该市有人
  • 王献之王献之(344年-386年),字子敬,琅邪郡临沂县(今山东省临沂市)人,王羲之第七子。官至中书令,为与族弟王珉区分,人称王大令。与其父并称为“二王”。逸事多见于“世说新语”中。王献之自幼
  • 兰斯·亨利克森兰斯·詹姆斯·亨利克森(英语:Lance James Henriksen,1940年5月5日-)美国演员和知名艺术家,最为观众朋友们所熟知的电影和电视剧角色为在科幻小说、动作和恐怖电影中的《异形》电
  • 达艾鹏达艾鹏(缅甸语:တာအိုက်ပေါင်း),德昂族,崩龙邦解放阵线(英语:Palaung State Liberation Front)(PSLF)及其下属武装力量德昂民族解放军(TNLA)主席。达艾鹏原本是崩龙邦解放组