语言模型

✍ dations ◷ 2025-04-26 11:58:11 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 圣巴泰勒米圣巴泰勒米(法语:Saint-Barthélemy),正式全名为圣巴泰勒米集体(Collectivité de Saint-Barthélemy),别名“圣巴斯”(Saint Barts、Saint Barths或Saint Barth),是一个法国海外属地
  • 颅神经脑神经(Cranial nerves)属于周围神经系统,区别于由脊髓发出的脊神经。它们是直接由脑发出的。在人类中,传统上认为一共有12对脑神经,其中有10对分布于头面部。除第1及第2对外,其余
  • 仙女座III仙女座 Ⅲ是位于仙女座的一个矮椭球星系,距离大约244万光年, 它是本星系群的一员,也是M31的卫星星系。仙女座 Ⅲ是Sydney van Der Bergh在1970和1971年的照相干板上发现的。
  • 喀土穆喀土穆(阿拉伯语:الخرطوم‎ al-Kharṭūm)是苏丹共和国的首都。来自乌干达的白尼罗河与来自埃塞俄比亚的青尼罗河在此交汇,向北奔向埃及流入地中海。“喀土穆”一词的意
  • 螺线螺线是指一些围着某些定点或轴旋转且不断收缩或扩展的曲线。
  • 艾琳·科林斯艾琳·柯林斯(Eileen Collins,曾执行STS-63、STS-84、STS-93以及STS-114任务),美国空军退役上校,美国首位负起指挥哥伦比亚号航天飞机任务的女太空人。(此次任务要负责安装钱德勒
  • 河南广播电视台音乐广播河南广播电视台音乐广播,简称河南音乐广播,开播于2003年,是河南广播电视台一套以音乐为主的广播频率。该频率通过调频及互联网,覆盖河南全省各主要城市,是河南省影响力最大的音乐
  • 哈孟库布沃诺哈孟库布沃诺(英语:Hamengkubuwono或Hamengkubuwana)是印度尼西亚原日惹苏丹国,现日惹特区的统治家族。现任苏丹为哈孟库布沃诺十世。该家族被爪哇族人认为是马打蓝国以及满者伯
  • 阿拉伯联邦阿拉伯联邦,又称伊约联邦,是由伊拉克和约旦于1958年组成的一个短命的国家,尽管其名称所暗示的是联邦制,但它实际上是一个邦联。联邦成立于1958年2月14日,当时的伊拉克国王费萨尔
  • 李棠 (宣德进士)李棠,字宗楷,浙江缙云人。明朝官吏、进士出身。宣德五年(1430年),李棠中进士,授刑部主事,为刑部尚书魏源、金濂所器用。晋升为刑部员外郎,多所平反,进郎中。景泰年间,升为侍郎。随后巡