交叉熵

✍ dations ◷ 2025-04-02 17:23:48 #信息学熵

在信息论中,基于相同事件测度的两个概率分布 p {\displaystyle p} 相对于的)。

对于离散分布 p {\displaystyle p} q {\displaystyle q} ,这意味着:

对于连续分布也是类似的。我们假设 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上是绝对连续的(通常 r {\displaystyle r} 是Lebesgue measure on a Borel σ-algebra)。设 P {\displaystyle P} Q {\displaystyle Q} 分别为 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上概率密度函数。则

在信息论中, 以直接可解编码模式通过值 x i {\displaystyle x_{i}} 编码一个信息片段,使其能在所有可能的 X {\displaystyle X} 集合中唯一标识该信息片段,Kraft–McMillan theorem确保这一过程可以被看作一种 X {\displaystyle X} 上的隐式概率分布 q ( x i ) = 2 l i {\displaystyle q(x_{i})=2^{-l_{i}}} ,从而使得 l i {\displaystyle l_{i}} x i {\displaystyle x_{i}} 的编码位长度。 因此, 交叉熵可以看作每个信息片段在错误分布 Q {\displaystyle Q} 下的期望编码位长度,而信息实际分布为 P {\displaystyle P} 。这就是期望 E p {\displaystyle {E}_{p}} 是基于 P {\displaystyle P} 而不是 Q {\displaystyle Q} 的原因。

在大多数情况下,我们需要在不知道分布 p {\displaystyle p} 的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集 T {\displaystyle T} 创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。 p {\displaystyle p} 是语料中词汇的真实分布,而 q {\displaystyle q} 是我们获得的语言模型预测的词汇分布。由于真实分布是未知的,我们不能直接计算交叉熵。在这种情况下,我们可以通过下式来估计交叉熵:

N {\displaystyle N} 是测试集大小, q ( x ) {\displaystyle q(x)} 是在训练集上估计的事件 x {\displaystyle x} 发生的概率。我们假设训练集是从 p ( x ) {\displaystyle p(x)} 的真实采样,则此方法获得的是真实交叉熵的蒙特卡洛估计。

相关

  • pico-皮,或译皮可(英语:Pico-),是一个国际单位制词头,符号p,表示10-12,或0.000 000 000 001。它源自于西班牙语pico;一说来源于意大利语词汇piccolo。使用举例:
  • 假如没有遇见你彭豆豆、邵伟桐北京曼荼罗影视文化传媒有限公司灵河文化传媒(上海)有限公司《假如没有遇见你》(英语:Imagine Me Without You),2018年中国爱情公路剧。本剧取材真实故事,由彭豆豆、
  • 欧盟宪法《欧盟宪法》,又称《欧盟宪法条约》、《罗马条约》,由欧盟宪法委员会起草,意在欧盟全体成员国统一采用的宪法。欧盟成员国于2004年签署了建立《欧盟宪法》的协定,但在2005-2006
  • 慈利县慈利县是位于湖南省张家界市东部的县。辖域面积3,481平方公里;国产值总量66.72亿元(2009年),总人口63.66万人(2009),其中城镇人口为22.90万人,农村人口为40.76万人(2009)。当地民族除
  • 艾哈迈德·伊泽特帕夏艾哈迈德·伊泽特帕夏(阿拉伯语:احمد عزت پاشا‎;1864年-1937年3月31日),奥斯曼帝国第一次世界大战中的将领,大维齐尔(1918年10月14日-1918年11月8日)和最后一任外交部长。
  • 1,4-二溴苯1,4-二溴苯是一种有机化合物,化学式为C6H4Br2,是带有二甲苯气味的无色晶体。它有中等毒性。苯和溴在铁的催化下反应,得到溴苯,溴苯再进一步和溴反应,蒸馏后得到1,4-二溴苯。
  • 约翰·缪尔黑德·麦克法兰约翰·缪尔黑德·麦克法兰(John Muirhead Macfarlane,1855年-1943年)为苏格兰植物学家。约翰·缪尔黑德·麦克法兰出生于苏格兰,并在爱丁堡大学担任几个不同的学术职务。1893年他
  • 迪特尔·博斯特迪特尔·博斯特(Dieter Borst,1950年5月12日),德国画家
  • 性桂性桂(满语:ᠰᡳᠩᡤᡠᡳ,穆麟德:,?-1747年),满洲正蓝旗,清朝政治人物、清朝刑部尚书。曾任漕运总督。雍正十年四月乙巳,接替海寿,担任清朝刑部尚书,后改兵部尚书。雍正十年七月丙申,接替鄂
  • 图种图种是一种利用图片档来传递压缩档的技巧。图种以图片检视器开启时,就是一张单纯的图片。但可以以压缩软件对其解压缩,取得在图片档后的压缩档内容。虽然图种携带的是压缩档,而