语言模型

✍ dations ◷ 2025-11-19 08:42:28 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • DrugBankDrugBank是阿尔伯塔大学提供的一个生物信息学和化学信息学数据库,它提供了约8700种药物的详细资料。
  • 大气层大气层,均源自及也许是一层受到重力吸引聚拢在拥有巨大质量天体周围的气体,而如果重力够大且气体的温度够低,就能长期保留住。有些行星拥有许多不同的主要气体,并且有非常深厚的
  • 《四面体》《四面体》(Tetrahedron)是一本登载有关有机化学的原创研究论文的期刊。该期刊的影响因子为2.641(2014年) 。该期刊上的很多篇文章都已经得到多次引用,根据Web of Science(英语:Web
  • 卡的夫加的夫(英语:Cardiff;威尔士语:Caerdydd)是威尔士的首府和最大城市,也是英国第十六大城市。威尔士国民议会所在地。人口约519,700,面积190平方公里。加的夫在威尔士语中意为塔夫河
  • TLS/SSL传输层安全性协议(英语:Transport Layer Security,缩写:TLS)及其前身安全套接层(英语:Secure Sockets Layer,缩写:SSL)是一种安全协议,目的是为互联网通信提供安全及数据完整性保障。网
  • 马凯雷雷大学马凯雷雷大学(Makerere University)是乌干达规模最大的大学,位于首都坎帕拉。它在1922年成立时,只是一所技术学校;1963年成为东非大学一部分。1970年东非大学一分为三时,马凯雷雷
  • 南洞区南洞区(朝鲜语:남동구/南洞區 Namdong gu */?),是现时大韩民国仁川广域市的一个区,与京畿道等4个区接壤。现时管有18个立法洞(11个行政洞),面积合共56.9平方公里。人口有381895人。
  • 小雷蒙德·戴维斯小雷蒙德·“雷”·戴维斯(英语:Raymond "Ray" Davis, Jr.,1914年10月14日-2006年5月31日),美国化学、物理学家,戴维斯、小柴昌俊与里卡尔多·贾科尼,共同获颁2002年诺贝尔物理学奖,
  • 四卤甲烷四卤甲烷是甲烷的四个氢全部被卤素取代基所取代的化合物,它的通式为CBrkCllFmIn。四卤甲烷恰好在有机化学及无机化学的边界上,因此其命名可以用有机化合物或无机化合物的方式
  • 带电黑洞带电黑洞(或称为R-N黑洞),顾名思义就是带有电荷的黑洞,他与一般黑洞不同的是,带电黑洞有两个视界,当物体穿越第一层视界时就一定被强大的重力吸往第二层视界,然后被潮汐力给撕碎,并