语言模型

✍ dations ◷ 2025-04-03 10:36:31 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 著骨点炎著骨点炎(过去也称为:接骨点炎、附着部炎;英语:Enthesitis)是著骨点(英语:Enthesis)(肌腱或韧带附着在骨头的部位)的发炎。它是一种著骨点病变,著骨点发生病变。 早期临床症状类似“锻
  • Ciliophora纤毛虫是纤毛虫门(学名:Ciliophora)生物的通称,是一类较复杂的原生动物,主要特点是以纤毛作为运动器,细胞核一般分化出大核(营养)、小核(生殖)、摄食胞器等,无性生殖为横二分裂,有性生殖
  • 杂食性杂食性是指吃植物、动物的一类的动物,这类动物什么都能吃,它们不用依靠单一类型的食物如植物或动物来维持生命,却可以只进食单一类型的食物来维持生命,因此对周遭环境有着较强的
  • 素祭素祭(希伯来语:minchah,英语:meal offerings、gift offering或grain offerings)是《圣经·利未记》提到的第二种祭物,这种祭物不包含肉类。素祭经常是单独献上,但也可以与燔祭一同
  • 帕络西汀帕罗西汀(Paroxetine)是一种选择性5-羟色胺再吸收抑制剂(SSRI)型的抗抑郁药,其药物形态为盐酸帕罗西汀(Paroxetine hydrochloride),商品名为“赛乐特”(Seroxat)。在临床上常用于社交
  • 水塔水塔(water tower)是一种用于储水和配水的高耸结构建筑,常见于城市中。水塔一般被用来保持和调节给水管网中的水量和水压;主要由水柜、基础和连接两者的支筒或支架组成;用来在自
  • 孙经先孙经先(1948年1月-),现任徐州师范大学数学学院特聘教授,山东大学兼职教授、博士生导师,华东石油大学兼职教授,全国非线性泛函分析学术会议联络组成员。1981年获理学硕士学位 1984年
  • 山冈庄八山冈庄八(1907年1月11日-1978年9月30日),日本小说家。其作品主要是以历史小说为主。本名是山内 庄藏(结婚后改姓藤野)。出生于新潟县北鱼沼郡小出町(现鱼沼市)。在1938年以“约束”
  • 博洛博洛(满语:ᠪᠣᠯᠣ,转写:;1613年-1652年),满洲爱新觉罗氏,清初将领。清太祖努尔哈赤孙,饶余敏郡王阿巴泰第三子。后金天聪九年(明崇祯八年,1635年),跟从讨伐明军,有军功。清崇德元年(崇祯九
  • 可卖回债券可卖回债券(Putable Bond)可以认为是一种附带了看跌期权(Put Option)的债券,债券持有人可以按照特定价格在债券到期日之前强制卖给债券发行人。卖回价格通常为债券面值。当市场利