语言模型

✍ dations ◷ 2025-12-10 08:38:58 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 亚太地区亚太地区,全称为亚洲及太平洋地区,缩写为APAC,是西太平洋地区周边国家包括岛屿的总称。亚太地区在狭义上,是指东亚、东南亚等太平洋西岸的亚洲地区、大洋洲、以及太平洋上的各岛
  • 230110 数学 120 信息科学与系统科学 130 力学 140 物理学 150 化学 160 天文学 170 地球科学 180 生物学210 农学 220 林学 230 畜牧、兽医科学 240 水产学310 
  • 北京九凤北京九凤信息科技有限公司,简称北京九凤,是中国大陆一家电子游戏开发商,网元圣唐旗下企业,成立于2014年,实际办公地点分布在北京、台北两地。(简体中文)官方网站 (简体中文)北京九凤
  • 空军太空司令部空军太空司令部 (AFSPC)是美国空军麾下一个一级司令部,总部位于美国科罗拉多州的彼得森空军基地,该司令部成立于1982年9月,负责以人造卫星和洲际弹道导弹(ICBM)来保护美国本土,对美
  • 印度尼西亚地理印度尼西亚共和国位于亚洲东南部,地处南纬11°至北纬6°,东经95°至141°之间,地跨赤道,由太平洋和印度洋之间17508个大小岛屿组成(其中约6000个是有人定居的岛屿),是世界上最大的
  • 弗兰克帕伊斯弗兰克帕伊斯是古巴的城镇,属奥尔金省,面积510平方公里,海拔高度2米,2004年人口25,621,人口密度为每平方公里50.2人。
  • 荷兰皇家航空867号班机事故荷兰皇家航空867号班机(KLM867)是由阿姆斯特丹飞往东京成田的班机。1989年12月5日,这架出厂不到6个月的波音747-400M客货混合机飞入一片由里道特火山爆发后的火山灰云后因引擎
  • 金丸信金丸信(日语:金丸 信/かねまる しん ,1914年9月17日-1996年3月28日),日本政治家,自由民主党党员,曾历任众议员(12期)、防卫厅长官(第35代)、国土厅长官(第3代)、建设大臣(第34代)、副总理、
  • 约翰·弗雷德里希·欧柏林约翰·弗雷德里希·欧柏林(德语:Johann Friedrich Oberlin 法语:Jean-Frédéric Oberlin 英语:John Frederic(k) Oberlin 1740年8月31日-1826年6月1日)法国阿尔萨斯信义宗牧师、
  • 何鉴何鉴(1442年-1521年),字世光,浙江承宣布政使司绍兴府新昌县(今浙江省新昌县)人,明朝政治人物,累官刑部尚书、兵部尚书。成化五年(1469年)己丑科进士,授直隶宜兴县知县,征拜为监察御史,巡按