语言模型

✍ dations ◷ 2025-12-10 21:09:11 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • BMIBMI可能指的是以下几种:
  • (8-)8-氨基喹啉是一种有机化合物,喹啉环上的8位被氨基取代。可用作医药中间体。8-氨基喹啉可在钴钼硫化物催化剂存在下,由氢气还原8-硝基喹啉得到。磷酸伯氨喹帕马喹他非诺喹
  • 主动脉剥离主动脉夹层(英语:aortic dissection;法语:dissection aortique;德语:Aortendissektion),又译为“主动脉剥离”或“心血管动脉撕裂”,是因为主动脉血管内膜(英语:Tunica intima)受伤,使得
  • 校训座右铭(英语:Motto)指个人、组织等引以为自我警诫的短句或格言,代表着精神、意志、信念等,一般以排比形式出现。家族、学校、公司等都可能有座右铭,当中学校的训词称为校训,家族的
  • 神舟十一号神舟十一号航天员航天服则是由上海东华大学航天员服装研发设计团队负责。北京时间2016年11月18日14时03分,神舟十一号载人飞船返回舱在内蒙古中部锡林郭勒盟苏尼特右旗境内成
  • 海蛇科海蛇亚科(学名:Hydrophiinae)包括所有终生生活于海水中的蛇,属于蛇亚目,由远古眼镜蛇进化而来,本科有15属、约50种。在新的分类法中,海蛇亚科被归类于眼镜蛇科之下。海蛇亚科下的蛇
  • 寿桃寿桃可以指:
  • 新竹客运新竹汽车客运股份有限公司(英语:Hsinchu Bus Company, Ltd.),简称新竹客运,主要经营新竹市公车、新竹县市区公车、公路客运及国道客运。成立于1919年9月29日,前身为台湾轨道株式会
  • Robonaut 2Robonaut 2,简称R2,由美国宇航局和通用汽车公司研发的机器宇航员。原定发现号航天飞机进行它最后一次的太空飞行时携带R2进入国际空间站而且将永久呆在那里。但发现“发现号”
  • 欧洲与地中海警报系统欧洲与地中海地震警报系统又称欧洲地质灾害预警系统,是基于欧洲与地中海灾害防控备忘录为欧盟国家服务的地震预警系统,来源于欧洲与地中海地震中心(European-Mediterranean Sei