语言模型

✍ dations ◷ 2025-11-05 07:56:10 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 6s22,8,18,18,8,2蒸气压第一:502.9 kJ·mol−1 第二:965.2 kJ·mol−1 第三:3600 kJ·mol主条目:钡的同位素钡(Barium)是化学元素周期表中的元素,它的原子序数是56,化学符号是Ba。它
  • 国内数个少数民族进行强制迁徙苏联的人口转移(俄语:Депортации народов в СССР)可分为以下几大类:驱逐“反苏”的人口类别,通常被列为工贼,驱逐整个民族,劳动力转移,组织迁移,并用俄罗斯人
  • 东普鲁士东普鲁士(德语:Ostpreußen;立陶宛语:Rytų Prūsija或Rytprūsiai;波兰语:Prusy Wschodnie;俄语:Восточная Пруссия)是普鲁士王国及后来德意志帝国的一个省,位于普鲁
  • 木浦木浦市(朝鲜语:목포시/木浦市 Mokpo si */?)是韩国全罗南道的一座港口城市,位于黄海沿岸。韩国海军在此设有军港设施和航空基地。
  • 人民阵线 (法国)人民阵线(法语:Front populaire)是20世纪上半叶战间期法国出现的一个左翼政治联盟。1935年7月14日,共产党、工人国际法国支部、激进党和各大工会组织全国规模的反法西斯示威活动
  • 193<< 190191192193194195196197198199>> 193是192与194之间的自然数。
  • 乔治·赛代斯乔治·赛代斯(法语:George Cœdès,1886年8月10日-1969年10月2日),是法国东方学家。过去被误译为乔治·戈岱司或乔治·柯代司。乔治·赛代斯早年就读于巴黎文学院和高等研究学院,获
  • 元气囝仔《元气囝仔》(日语:ばらかもん)是漫画家吉野五月创作的日本漫画作品,并在2014年7月至9月播出同名电视动画。2018年6月12日现在,单行本已出版17册,最终册第18册预计在2018年12月发
  • 艾米丽玩闹鬼2《艾米丽玩闹鬼2》(英语:Emily Wants to Play Too)是由 Shawn Hitchcock 制作的《艾米丽玩闹鬼》的续集。这个游戏于2017年12月推出正式版,并将在2018年4月24日发布PlayStation
  • 小西克哉小西克哉(1954年4月29日-,日语:小西克哉),日本电视节目同步口译员、评论员。朝日电视台BS日本日本BS放送RKB广播电台TBS广播电台