语言模型

✍ dations ◷ 2025-06-08 23:12:41 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 氯化铁氯化铁(FeCl3)又称三氯化铁,是三价铁的氯化物。它易潮解,在潮湿的空气会水解,溶于水时会释放大量热,并产生啡色的酸性溶液。这个溶液可蚀刻铜制的金属,甚至不锈钢。无水的氯化铁是
  • 游泳池游泳池(英语:Swimming pool),简称为泳池,是游泳等水上运动的场地。多数游泳池建在地面,根据水温可以分为一般游泳池和温水游泳池。最早期游泳池是在今天的巴基斯坦的摩亨佐-达罗游
  • 离散数学离散数学(英语:Discrete mathematics)是数学的几个分支的总称,研究基于离散空间而不是连续的数学结构。与连续变化的实数不同,离散数学的研究对象——例如整数、图和数学逻辑中的
  • 宇宙 (消歧义)宇宙是由空间、时间、物质和能量,所构成的统一体。宇宙也可以指:
  • 暴龙霸王龙(学名:Tyrannosaurus rex),是霸王龙属(Tyrannosaurus)目前仅有的一个有效物种,属于霸王龙科的巨型兽脚类恐龙,名字的拉丁文含义是“蜥蜴中的暴君”。其身长估计可达13米,臀部高
  • 安仁县安仁县位于湖南省东南部,为郴州市下辖的一个县。全境处罗霄山脉西麓,辖域面积1,478平方公里,位居全省县市的第72位;常住人口382,920人(2010普查),居全省第58位。2011年,全县GDP总量4
  • 沸腾沸腾是在液体表面和内部同时发生的剧烈汽化现象。是物质从液态转变为气态的两种相变方式之一,另一种是蒸发。当液体上方的气压等于液体的饱和蒸汽压时,液体就会开始沸腾。如果
  • 穆罕默德·法拉赫·艾迪德穆罕默德·法拉赫·艾迪德(索马里语:Maxamed Faarax Caydiid,阿拉伯语:محمد فرح حسن عيديد‎ / Mohamed Farrah Aidid,1934年12月15日-1996年8月2日),索马里军阀。艾
  • 拉赫塔皮姆普拉斯拉赫塔皮姆普拉斯(Rahta Pimplas),是印度马哈拉施特拉邦Ahmadnagar县的一个城镇。总人口19024(2001年)。该地2001年总人口19024人,其中男性9695人,女性9329人;0—6岁人口2433人,其中
  • 常罡常罡(1955年-),河南安阳人,中国作家、音乐学人、文物鉴藏家。中国作家协会会员。1978年考入中央音乐学院音乐学系;1983年起在中国戏曲学院作曲系教授管弦乐配器法。1985年入读美国