语言模型

✍ dations ◷ 2025-05-19 07:55:08 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 碱性饮食碱性饮食(英语:Alkaline diet)也被称为碱性灰烬饮食(alkaline ash diet)、碱酸饮食(alkaline acid diet)、酸灰烬饮食(acid ash diet)或是酸碱饮食(acid alkaline diet)泛指一类被认为
  • 纽甜纽甜(Neotame)是一种人工甜味剂,分子式为C20H30N2O5。纽甜是世界上最甜的合成甜味剂,甜度是一般蔗糖的7000~13000倍,也是口味最接近蔗糖的甜味剂。纽甜在干粉状态下具有极佳的稳定
  • 乌兰乌德乌兰乌德(俄语:Улан-Удэ:布里亚特语:Улаан-Үдэ),俄罗斯布里亚特共和国首府(经纬座标:51°50′N 107°36′E),2010年人口404,357。是东西伯利亚第三大城市。盛唐时属燕
  • 体质人类学 文化人类学 语言人类学 分子人类学 社会人类学 考古学应用人类学 民族志 参与观察 文化相对论文化 • 社会 史前史 • 人类演化 亲属 婚姻 • 家庭 物质文化 种
  • 阳山阳山县是中华人民共和国广东省清远市下辖的县。位于广东省西北部,南岭山脉的南面,连江中游。东边与广东省英德市、乳源瑶族自治县交界,南边与广东省怀集县、广宁县、清新县毗邻
  • 圣米格尔县圣米格尔县(英语:San Miguel County, Colorado)是美国科罗拉多州西部的一个县,西邻犹他州。面积3,337平方公里。根据美国2000年人口普查,共有人口6,954人。县治特柳赖德(Telluride
  • 中世纪后期中世纪后期 (Late Middle Ages),或称中世纪晚期、中世纪末期、中古后期、中古晚期、中古末期,是历史学者用来描述14世纪至15世纪(约1300年-1499年)欧洲历史的术语。中世纪晚期位
  • 克里斯·萨利克里斯托弗·斯蒂芬·"克里斯"·萨利(英语:Christopher Stephen "Chris" Sulley,1959年12月3日-),出生于坎伯韦尔,是一名英格兰前足球运动员及足球主教练,司职左后卫。他分别在英格
  • 2008年亚洲沙滩运动会第一届亚洲沙滩运动会于2008年10月18日至26日在印尼巴厘岛举行。本届亚洲沙滩运动会是首届亚洲沙滩运动会,也是全球首个以沙滩为题的国际运动会。在2004年12月26日,苏门答腊是
  • 除息除息(英语:Ex-Dividends),是公司配发“现金股利”(配息/股息)给股东时,将发放的股息从股价中扣除。【例】除息后,除息前一日的收盘价与除息后的价位之间有个除息价差缺口,如果股价能回