语言模型

✍ dations ◷ 2025-11-30 16:33:57 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 杨祖保杨祖保(英语:Ralph T. Yang,1942年9月18日-),江苏镇江人,美国化学工程专家、密歇根大学讲席教授。他是美国加州大学圣巴巴拉分校校长杨祖佑之弟。杨祖保于1964年获国立台湾大学学士
  • 近1,200万德意志裔人被由东欧驱逐在第二次世界大战的后期及战争结束时候,数百万德意志公民(不论民族或是否与纳粹德国有联系)以及德意志裔人(不论国籍)被迫从其他欧洲国家迁徙回德国。受到影响的范围包括前德意志
  • 乔克托族乔克托(英语:Choctaw),是美洲原住民中的文明化五部族之一。早期他们分布于美国东南部(即现今的密西西比州、佛罗里达州、亚拉巴马州及路易斯安那州。现在主要分布于密西西比州、
  • 各固有族群之自然语言中华民国语言列表可以指:
  • AgSbFsub6/sub六氟锑酸银是一种配合物,化学式为AgSbF6。可溶于水,具有潮解性。它在有机化学中可以用作催化剂。将焦锑酸钠和硝酸银溶于40%的氢氟酸溶液中,于30~50℃反应数小时后,在真空中浓缩,2
  • 麦卡洛克诉马里兰州案麦卡洛克诉马里兰州案(17 U.S. 316 (1819))是美国最高法院的一个著名案例。马里兰州向美国第二银行在该州的分行征收税款来试图阻止其运转。该州法案虽然写明适用于一切未经
  • 国会 (日本) ?)为日本的最高权力机构与立法机构,现今依《日本国宪法》而设置,采两院制,由众议院与参议院构成。今众议院议员设465席、参议院议员设245席,选民则为18岁以上的日本国民。由于
  • 西奥多·威廉·理查兹西奥多·威廉·理查兹(英语:Theodore William Richards,1868年1月31日-1928年4月2日),第一位获得诺贝尔化学奖的美国化学家,以肯定他准确测定了许多化学元素的原子量。1868年,西奥多
  • 碎屑岩碎屑岩是由于机械破碎的矿物和岩石碎屑,经过搬运、沉积、压实、胶结,最后形成的新岩石;成分除碎屑物外,还有含量较少的化学物质。如果残余的碎屑是从沉积区外面的陆地上搬运过来
  • 玛加利大·玛利亚·亚拉高玛加利大(英文翻译名: Margaret Mary Alacoque,法文原名: Marguerite-Marie Alacoque, 天主教翻译为:丽达 安兰阁1647年7月22日-1690年10月17日)是一位法国天主教修女,促进了耶稣