语言模型

✍ dations ◷ 2025-12-04 16:41:33 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 卵是卵生动物赖以繁殖的胚胎,有的是在雌性体外受精而成(例如鱼类的卵),有的则是在雌性体内受精后再产出体外孵化(例如鸟类的卵)。鱼类、鸟类、爬行动物、昆虫,以及若干哺乳类都会产
  • 生物标记分子生物标记 (英语:Biomarker),是医学指标下的一个大的子类,指的是可在病人或被研究者体外观测到的客观指标。通常情况下,相应的测量方法应当是精准且可被重复的。与医学症状不同的
  • 核壳层模型在核物理与核化学中,核壳层模型是一个利用泡利不相容原理的结构来描述的原子核的能量级别的一个模型。此种模型与电子轨域模型略不同:核子的角动量量子数可大于或等于主量子数
  • 阳湖派阳湖派,清代文学流派,代表人物是恽敬、张惠言。得名于常州府阳湖县。阳湖派主张大抵与桐城派相同,只是他们一面作古文,同时又喜作骈文;其次他们除取法五经之外,也兼取诸子与史书。
  • 光柄菇科光柄菇科(学名:Pluteaceae)是担子菌门下伞菌目的一科。
  • 李月英李月英(Hazel Ying Lee,1912年8月24日-1944年11月25日),华裔美国人,出生于美国俄勒冈州波特兰市,祖籍广东台山市大江镇水楼村。父亲经商,母亲是传统的家庭主妇,要帮忙丈夫的生意,也要
  • 公孙瓒公孙瓒(?-199年),字伯圭(出《刘宽碑阴》名字取自圭瓒一词,文史多作伯珪,当取碑),东汉末期人物,幽州辽西令支人,曾任中郎将,封都亭侯,幽州刺史。曾与刘备和刘德然共同师事于卢植。镇守辽西
  • 双重行动模式双重行动模式(double action model)是巴斯(Bass, A.Z.)在1969年提出,有关新闻媒介把关过程的理论。巴斯将新闻媒介的把关过程分为两个部分:新闻采集阶段与新闻加工阶段。第一部分
  • 季春奶奶《季春奶奶》(韩语:계춘할망;英语:),是2016年5月上映的一部韩国剧情片,由尹鸿承执导,尹汝贞及金高银主演 。本片讲述了小时候跟奶奶走散而离奇失踪的孙女,隐藏过去,事隔十二年后突然回
  • 阿比扬省阿比扬省(阿拉伯语:محافظة أبين‎)是也门的一个省,位于该国的南部、亚丁东北方。面对亚丁湾。面积20,380平方公里,2012年人口513,701人。首府津吉巴尔。下分十一区。