语言模型

✍ dations ◷ 2025-12-03 16:26:48 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 反义链(英语:Sense,也称股)在分子生物学中指一段核酸分子(如RNA与DNA)及其互补序列在指定氨基酸序列中的作用性质。例如,若RNA可以直接合成蛋白质,则该段RNA为正链;反之,若RNA需要先进行转
  • 土壤微生物学土壤微生物学是研究土壤中的微生物、生物功能以及它们如何影响土壤性质的一门学科。人们一般认为,在二十到四十亿年前,世界上第一个细菌起源于大海。这些细菌可以固氮,在不断的
  • 吉里克二世吉里克二世(中世纪盖尔语:Giric mac Cináed;现代盖尔语:Griogair mac Coinneach;?-1005年)是可能于997年–1005年在位的阿尔巴共治国王。吉里克二世可能是阿尔巴国王肯尼思三世之
  • 宜兰县市区公车宜兰县市区公车,为宜兰县政府所监理的市区汽车客运服务,为宜兰县政府所规划的“宜兰劲好行幸福交通网”的一环。2007年11月,国道五号汽车客运开通,宜兰县政府欲借由带动宜兰县市
  • 宗室岳琪宗室岳琪(1829年-1891年),爱新觉罗氏,字小琴,清朝皇族、政治人物,同进士出身。同治四年(1865年),登进士。光绪年间,特授改补馆职翰林。光绪九年,任张家口监督。光绪十四年,任少詹事,后升任
  • 次开央元音次开央元音是元音的一种,用于一些口说语言当中,国际音标以⟨ɐ⟩代表此音,而X-SAMPA音标则以⟨6⟩代表此音。国际音标中的此符号为一个倒转的印刷体a。事实上,国际音标中并没有
  • 大理国大理(白语:Dablit Guaif;937年-1094年,1096年-1253年)是一个位于云南及周边地区由白蛮首领段思平建立的政权。其政治中心在洱海一带,疆域大概是现在的中国云南省、贵州省、四川省西
  • 苏珊·柯林斯苏珊·玛格丽特·柯林斯(英语:Susan Margaret Collins;1952年12月7日-),是一位美国共和党政治人物,1997年起担任缅因州美国参议院议员。柯林斯生于阿鲁斯图克县卡里布,成年后毕业于
  • 詹姆斯·格林·哈代詹姆斯·格林·哈代(James Greene Hardy,1795年5月3日-1856年7月16日),美国弗吉尼亚卢嫩堡县人,是一名美国肯塔基州政治人物,他曾经代表美国人党当选第15任肯塔基州副州长。1854年,
  • 佛公天后宫佛公天后宫,是台湾高雄市前镇区的庙宇,主奉福建海神天上圣母。佛公天后宫的妈祖神像相传是明朝天启年间,来自福建福州马尾沟的一对夫妻(黄奎及何氏更娘)有一日出海捕鱼,当捕完鱼准