交叉熵

✍ dations ◷ 2025-04-03 10:40:11 #信息学熵

在信息论中,基于相同事件测度的两个概率分布 p {\displaystyle p} 相对于的)。

对于离散分布 p {\displaystyle p} q {\displaystyle q} ,这意味着:

对于连续分布也是类似的。我们假设 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上是绝对连续的(通常 r {\displaystyle r} 是Lebesgue measure on a Borel σ-algebra)。设 P {\displaystyle P} Q {\displaystyle Q} 分别为 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上概率密度函数。则

在信息论中, 以直接可解编码模式通过值 x i {\displaystyle x_{i}} 编码一个信息片段,使其能在所有可能的 X {\displaystyle X} 集合中唯一标识该信息片段,Kraft–McMillan theorem确保这一过程可以被看作一种 X {\displaystyle X} 上的隐式概率分布 q ( x i ) = 2 l i {\displaystyle q(x_{i})=2^{-l_{i}}} ,从而使得 l i {\displaystyle l_{i}} x i {\displaystyle x_{i}} 的编码位长度。 因此, 交叉熵可以看作每个信息片段在错误分布 Q {\displaystyle Q} 下的期望编码位长度,而信息实际分布为 P {\displaystyle P} 。这就是期望 E p {\displaystyle {E}_{p}} 是基于 P {\displaystyle P} 而不是 Q {\displaystyle Q} 的原因。

在大多数情况下,我们需要在不知道分布 p {\displaystyle p} 的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集 T {\displaystyle T} 创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。 p {\displaystyle p} 是语料中词汇的真实分布,而 q {\displaystyle q} 是我们获得的语言模型预测的词汇分布。由于真实分布是未知的,我们不能直接计算交叉熵。在这种情况下,我们可以通过下式来估计交叉熵:

N {\displaystyle N} 是测试集大小, q ( x ) {\displaystyle q(x)} 是在训练集上估计的事件 x {\displaystyle x} 发生的概率。我们假设训练集是从 p ( x ) {\displaystyle p(x)} 的真实采样,则此方法获得的是真实交叉熵的蒙特卡洛估计。

相关

  • 病毒培养病毒培养(Viral Culture)是一种通过将病毒与它能感染的细胞混合以对病毒进行检测的实验室检验手段。如果细胞出现变化,即出现“致细胞病变作用”(cytopathic effect),则可以说培养
  • 基础设施基建设施(英语:Infrastructure),亦称公共设施或公共建设,是指为社会生产和居民生活提供公共服务的物质工程设施,它是社会赖以生存发展的一般物质条件。基础设施不仅包括电网、通讯
  • 博尔济吉特氏寿康太妃(1599-1665年),科尔沁博尔济吉特氏。《钦定外藩蒙古回部王公表传》显示她是成吉思汗二弟哈卜图哈萨尔的后裔。科尔沁左翼前旗炳图郡王孔果尔之女,纳穆赛之孙女。清太祖之
  • 大报大报(英语:Broadsheet)是各类报刊尺寸中最大的一种形式,为规范长度的纵向版式(通常在559毫米以上)。这个词源于15到18世纪在欧洲以及新大陆大街上出售的一种便宜的图文结合的单面
  • 气孔植物在植物学中,气孔是两个保卫细胞以及其围绕所形成开口的总称,围绕保卫细胞周围的是副卫细胞。两个保卫细胞围成的开口,也就是我们在显微镜下观察到的小孔,是植物与外界交换气体的
  • 特拉万卡 (圣玛利亚-达费拉)特拉万卡(葡萄牙语:Travanca)是葡萄牙阿威罗区的一个堂区。总面积5.72平方公里,总人口2201人,人口密度384.8人/平方公里。
  • 赤鱬赤.mw-parser-output ruby.zy{text-align:justify;text-justify:none}.mw-parser-output ruby.zy>rp{user-select:none}.mw-parser-output ruby.zy>rt{font-feature-setting
  • 全民星攻略《全民星攻略》,是东森电视益智综艺节目,友松娱乐制作,主持人为曾国城及蔡尚桦。东森综合台于2019年2月18日起,周一至周五晚上9点播出。主持人兼馆长曾国城负责引导节目流程,主持
  • 彼得·贝伦斯彼得·贝伦斯(Peter Behrens),(1868年4月14日-1940年2月27日),逝世于柏林。德国现代设计之父,是德国现代主义设计的重要奠基人之一, 在建筑和设计方面的深远影响一直延续到今天。他
  • 天津交通广播天津广播电视台交通广播 (106.8 FM),简称天津交通广播,是天津广播电视台的一套调频广播频率,以播出交通信息为主。该频率在天津电视塔发射,发射功率为10千瓦。