交叉熵

✍ dations ◷ 2025-02-23 16:27:38 #信息学熵

在信息论中,基于相同事件测度的两个概率分布 p {\displaystyle p} 相对于的)。

对于离散分布 p {\displaystyle p} q {\displaystyle q} ,这意味着:

对于连续分布也是类似的。我们假设 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上是绝对连续的(通常 r {\displaystyle r} 是Lebesgue measure on a Borel σ-algebra)。设 P {\displaystyle P} Q {\displaystyle Q} 分别为 p {\displaystyle p} q {\displaystyle q} 在测度 r {\displaystyle r} 上概率密度函数。则

在信息论中, 以直接可解编码模式通过值 x i {\displaystyle x_{i}} 编码一个信息片段,使其能在所有可能的 X {\displaystyle X} 集合中唯一标识该信息片段,Kraft–McMillan theorem确保这一过程可以被看作一种 X {\displaystyle X} 上的隐式概率分布 q ( x i ) = 2 l i {\displaystyle q(x_{i})=2^{-l_{i}}} ,从而使得 l i {\displaystyle l_{i}} x i {\displaystyle x_{i}} 的编码位长度。 因此, 交叉熵可以看作每个信息片段在错误分布 Q {\displaystyle Q} 下的期望编码位长度,而信息实际分布为 P {\displaystyle P} 。这就是期望 E p {\displaystyle {E}_{p}} 是基于 P {\displaystyle P} 而不是 Q {\displaystyle Q} 的原因。

在大多数情况下,我们需要在不知道分布 p {\displaystyle p} 的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集 T {\displaystyle T} 创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。 p {\displaystyle p} 是语料中词汇的真实分布,而 q {\displaystyle q} 是我们获得的语言模型预测的词汇分布。由于真实分布是未知的,我们不能直接计算交叉熵。在这种情况下,我们可以通过下式来估计交叉熵:

N {\displaystyle N} 是测试集大小, q ( x ) {\displaystyle q(x)} 是在训练集上估计的事件 x {\displaystyle x} 发生的概率。我们假设训练集是从 p ( x ) {\displaystyle p(x)} 的真实采样,则此方法获得的是真实交叉熵的蒙特卡洛估计。

相关

  • 反铁磁态反铁磁性(英语:antiferromagnetism),或称反强磁性,是磁性材料的磁学性质的一种。在这种材料中,相邻电子自旋呈相反方向排列,其磁化率因而接近于零。1932年由Louis Néel首次发现。
  • 日本烧酒在日本,烧酎,又称日本烧酒,日式烧酒,是一种产于日本的传统蒸馏酒。名称来自古汉语,与烧酒同源。日本本岛中,南九州地区是最早制造烧酎的地区,在长崎县壹岐岛与伊豆诸岛等地皆有出产
  • 细胞转变转化可以指:
  • 日食日食(英语:Solar eclipse),又称日蚀,是一种天文现象,属于食的一种,只在月球运行至太阳与地球之间时发生。这时,对地球上的部分地区来说,月球位于太阳前方,因此来自太阳的部分或全部光
  • 大正大正(日语:大正/たいしょう Taishō */?)是日本大正天皇在位期间使用的年号,使用时间从1912年7月30日至1926年12月25日止。承续年号为明治,接续年号为昭和。 大正天皇体弱多病,这
  • 哈萨克斯坦国家图书馆哈萨克斯坦国家图书馆(哈萨克语:Национальная Библиотека Республики Казахстан),是哈萨克斯坦的国家图书馆。这座图书馆于1931年建
  • 捷克君主列表这是一份捷克君主的列表。波希米亚,摩拉维亚,西里西亚和卢萨蒂亚在历史上都是以捷克人为主的波希米亚王国(前身是波希米亚公国)的领地。 请参见主条目:
  • 王公 (斯拉夫)Knyaz或knez是斯拉夫头衔,在不同地域不同时期用于各种大贵族。英语中译作 prince、duke、count;中文译作公爵、亲王、王爷、大贵族等等。阴性拼写,在保加利亚语与俄语是knyagin
  • 鬼娃新娘之鬼娃也有种《鬼娃新娘之鬼娃也有种》(英语:)是一部2004年的美国喜剧砍杀电影,“恰吉系列”的第五作,以及是1998年《鬼娃新娘》续集。由唐·曼西尼(英语:Don Mancini)执导和编剧,他创作了整个系
  • 信绍布信绍布(缅甸语:ရှင်စောပု,发音:;孟语: သေဝ်စါဝ်ပေါအ;1394年11月-1472年),旧译信修浮,勃固王朝女王,1453至1472年在位。自信绍布的统治开始,上缅甸与下缅甸保持了长