语言模型

✍ dations ◷ 2025-11-26 13:20:24 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 病毒分类本页面列出了生物病毒的分类,包含病毒以及类病毒、普利昂蛋白、卫星病毒等等得亚病毒因子。医学导航: 病毒病病毒(蛋白质)/分类cutn/syst (hppv/艾滋病, 流感/疱疹/人畜共患)
  • 麦可·霍顿迈克尔·霍顿(英语:Michael Houghton,),英国生物化学家,参与开发丙型肝炎测试。霍顿1972年获东英吉利大学学士学位,并于1977年获伦敦大学国王学院生物学博士学位。然后,他在白金汉郡
  • 动物生态学动物学人类学 · 人与动物关系学 蜜蜂学 · 节肢动物学 医学节肢动物学 · 鲸类学 贝类学 · 昆虫学 动物行为学 · 蠕虫学 两栖爬行动物学 · 鱼类学 软体动物学 · 哺乳动
  • 龟甲龟甲,又称龟壳,是龟鳖目动物的甲壳,是由它们的肋骨进化成特殊的骨制和软骨护盾。 。可保护龟的身体。清光绪年间,金石学家王懿荣偶然在龟甲上发现有古文字,即是后来的甲骨文。部
  • 俄罗斯军区俄罗斯军区是俄罗斯作为俄罗斯武装力量的行政区划的一个系统。每个地区都有一个基于俄罗斯联邦主体的地理区域,以及一个管理各自领土内军事组织的总部。目前俄罗斯有五个军区
  • 流感血凝素流感血凝素是一种可在流行性感冒病毒表面找到的血球凝集素,这类血凝素属于抗原性糖蛋白,可使病毒捆绑在受感染的细胞上。现时人类已知的流感血凝素抗原共有17种亚型,分别标记为
  • 凯莉·拉维尼凯莉·J·拉维尼(英语:Kaylee J Lavigne)是一位美国女模特儿。拉维尼出生于佛罗里达州迈阿密,本身拥有着36E的巨乳,且喜欢冲浪。2015年,拉维尼和模特儿萨博·马蒂(Saab Marty)及摄影
  • 弗里兹·库恩弗里兹·库恩(Fritz Julius Kuhn,1896年5月15日-1951年12月14日)是一名效忠于纳粹德国的德裔美国人、纳粹分子、反犹太主义者,也是德裔美国人同盟纽约区的领导人。
  • 杜鹃花菌根杜鹃花菌根是一类和杜鹃花科植物共生的内生菌根真菌,杜鹃花科植物通常生活在北方针叶林、沼泽和石楠荒原等酸性贫脊的土壤,因此这种共生关系对杜鹃花科植物适应环境十分重要。
  • 派尔努甲醇悲剧派尔努甲醇悲剧(爱沙尼亚语:Pärnu metanoolitragöödia)是一场发生于2001年9月9日在爱沙尼亚派尔努县的事故,共造成68人丧生、重度失能者40人(含失明与脑部损伤)、失能者3人。