语言模型

✍ dations ◷ 2025-12-06 07:35:17 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 挪威欧洲(深灰色)挪威王国(挪威语:Kongeriket Norge),通称挪威(挪威语:Norge  发音 帮助·信息),位于斯堪的纳维亚半岛的西部,东与瑞典接壤,西邻大西洋。海岸线极其蜿蜒曲折,构成了挪威特有
  • 猎头/挖角猎头(Headhunting或Executive Search),是一种于欧美十分流行的人才招聘方式,意思即指“网罗高级人才”。猎头与一般的企业招聘、人才推荐和职业介绍服务的不同是,猎头追逐的目标
  • 艾草(学名:Artemisia argyi),又称作艾叶、艾、艾蓬、甜艾、香艾、冰台、艾蒿、灸草,是一种多年生草本植物,分布于亚洲及欧洲地区。多年生草本,揉之有香气;叶子羽状分裂,背面有白丝绒
  • Cestoda见内文绦虫纲(学名:Cestoda)是一个寄生性扁形动物门的一个纲。人们常说的绦虫其实是多个物种的泛称。所有绦虫纲的物种都是寄生虫,其生活史可能各有不同,但这些物种的成虫寄生于
  • 恰蒂斯加尔邦恰蒂斯加尔邦(恰蒂斯加尔语/印地语:छत्तीसगढ़,拉丁字母转写:Chattisgarh)是位于印度中部的一个行政邦,它于2000年11月1日从中央邦脱离,成为印度的第26个邦,全国第十大邦,首府
  • 丹戎槟榔丹戎槟榔〔俗称﹕廖都市〕为印尼廖内群岛省的首府,座落于廖内群岛最大岛民丹岛上,是民丹岛最大的城市。丹戎槟榔有快艇往来于廖内群岛的另一城市巴淡和新加坡,距新加坡仅有40千米
  • 竹书纪年《竹书纪年》是中国西晋武帝时在汲郡古墓出土整理的战国竹简“汲冢书”的一部分,原无书名,因其编年体体例而命名为《纪年》,亦称《汲冢纪年》。《竹书纪年》是一部于西晋太康二
  • 贝叶斯博弈在博弈论中,贝叶斯博弈(英语:Bayesian game)所指的是:博弈参与者对于对手的收益函数,无法获得完全信息(complete information);因此贝叶斯博弈也被称为不完全信息博弈。因为使用了贝
  • 新恋爱白书《新恋爱白书》(原名:BOYS BE…)是イタバシマサヒロ板橋雅宏原作,玉越博幸绘画的一部少年漫画作品,在台湾翻译成新恋爱白书。另被改编成动画BOYS BE... 与日本的舞台剧。《新恋爱
  • 伊梅列希王国伊梅列希王国〔格鲁吉亚语:იმერეთის სამეფო〕,格鲁吉亚历史的一个王朝,1455年分裂自格鲁吉亚王国。该王国建立后,该国陷入连续的对外战争中。1810年,该王国被俄罗