语言模型

✍ dations ◷ 2025-08-16 18:01:58 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 位图位图(Bitmap),又称栅格图(英语:Raster graphics)或点阵图,是使用像素阵列(Pixel-array/Dot-matrix点阵)来表示的图像。位图(Bitmap)也可指:位图的像素都分配有特定的位置和颜色值。每
  • 双码理论双码理论是一种认知理论 ,由西安大略大学的艾伦·白斐欧(Allan Paivio)于1971年提出。白斐欧在发展该理论的过程中使用了“形成心像有助于学习”的想法。根据白斐欧的说法,人
  • 国立中央图书馆旧址建功神社,是一座在1928年(日本时期昭和3年)建于台北市的神社。该神社原址位于南海学园中,即国立中央图书馆总馆旧址;在国立中央图书馆总馆迁至中山南路后,改为今国立台湾艺术教育
  • 美国各州最大城市列表以下城市大小是以人口为标准:
  • 阿尔沃兰海阿尔沃兰海(西班牙语:Mar de Alborán),是地中海的一个附属海,是一片夹在伊比利亚半岛和非洲大陆西端末尾之间的海域,通过直布罗陀海峡和大西洋相连。海区东西长370千米,南北宽170
  • 汤比格比国家森林汤比格比国家森林(英语:Tombigbee National Forest)是座美国国家森林,位于密西西比州的东部及东北部地区,总面积67,005英亩(271.16平方千米),因附近淌过的汤比格比河(英语:Tombigbee R
  • 施拉尔科格尔山坐标:47°06′35″N 11°01′09″E / 47.10972°N 11.01917°E / 47.10972; 11.01917施拉尔科格尔山(德语:Strahlkogel),是奥地利的山峰,位于该国西部,由蒂罗尔州负责管辖,属于斯图
  • 静宁苹果静宁苹果,是指中华人民共和国甘肃省静宁县的一个特产苹果。中国驰名商标、中国地理标志产品保护认证。清朝末期,静宁地区淘汰本土柰果,推广种植西方改良苹果品种。早年当地民众
  • 阿迪亚波纳阿迪亚波纳(古希腊语:Ἀδιαβηνή;Classical Syriac:ܚܕܝܐܒ‎;中古波斯语:Nodshēragān ;亚美尼亚语:Նոր Շիրական)是亚述一个古老的王国,首都为阿尔贝拉。阿迪亚
  • 东尼奖戏剧贡献奖东尼奖戏剧贡献奖是由美国戏剧协会在1990年,于东尼奖中所设立的非竞争性奖项。 此奖项颁给对於戏剧有特殊贡献,但并未能在东尼奖其他奖项中参与竞争的个人、机构或是组织。一