语言模型

✍ dations ◷ 2025-09-10 06:56:22 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 细胞学细胞生物学(英语:cell biology)旧称细胞学(cytology),是研究细胞的形态结构、生理机能、细胞周期、细胞分裂、细胞自噬、细胞凋亡, 以及各种胞器及讯息传递路径的学科。研究范围专
  • 发电机理论发电机理论或发电机原理(英语:Dynamo theory)是一个关于天体磁场的假说,人们相信地球磁场是由于地球外核中熔融铁、镍的对流以及整个行星自转的科里奥利力作用造成的。当导电流
  • 森有礼森有礼(1847年8月23日-1889年2月12日),日本政治家、外交家、教育家、改革家,是日本现代教育的先驱和首任文部大臣,被称为“明治六大教育家(日语:明治六大教育家)”之一、和“日本现代
  • 琥珀金琥珀金是一种金和银的天然合金,包含极少量的铜和其他金属。它已经能够人为生产,经常被称为绿金。古希腊人称之为“黄金”或“白金”,而不是“精炼黄金”。它的颜色根据黄金和银
  • HMG-CoA还原酶1DQ8, 1DQ9, 1DQA, 1HW8, 1HW9, 1HWI, 1HWJ, 1HWK, 1HWL, 2Q1L, 2Q6B, 2Q6C, 2R4F, 3BGL, 3CCT, 3CCW, 3CCZ, 3CD0, 3CD5, 3CD7, 3CDA, 3CDB· oxidoreductase activity· p
  • 丹尼斯·库辛尼奇丹尼斯·约翰·库辛尼奇(Dennis John Kucinich,1946年10月8日-),美国政治家,美国民主党成员,美国众议院议员,曾任克利夫兰市长,曾分别角逐2004和2008年总统民主党候选人提名,但都因支
  • 普洛耶什蒂普洛耶什蒂(罗马尼亚语:Ploiești)是位于罗马尼亚东南部的一个城市。属瓦拉几亚地区。距罗马尼亚首都布加勒斯特以北56公里。普洛耶什蒂是普拉霍瓦县的县府所在地。在2002年,该
  • 名侦探柯南动画集数列表以下为《名侦探柯南》的所有动画资讯列表。本系列是改编自青山刚昌的著名推理漫画《名侦探柯南》的动画作品,由日本动画制作公司TMS/V1 Studio所制作,并于读卖电视台等播出,以
  • 21卫门《21卫门》是藤子·F·不二雄的漫画作品,并改编为动画及动画电影。漫画最早连载于1968年至1969年的《周刊少年Sunday》,共有56话。并于1971年到1972年,集结为首版的单行本3卷,19
  • 亚硒酸铀酰铵亚硒酸铀酰铵化学式为(NH4)2UO2(SeO3)2,是一种有毒的无机化合物,具有放射性。亚硒酸铀酰铵可以通过蒸发铵的铀酸盐在亚硒酸中的浓溶液制备。