语言模型

✍ dations ◷ 2024-12-23 05:30:01 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 曾光曾光(1946年5月22日-),男,北京人,中国流行病学家。现任中华人民共和国国家卫生健康委员会高级别专家组成员、中国疾病预防控制中心流行病学首席科学家。1946年5月22日出生于北京。
  • 高温超导高温超导(High-temperature superconductivity,High Tc)是一种物理现象,指一些具有较其他超导物质相对较高的临界温度的物质在液态氮的环境下产生的超导现象。高温超导体(High-te
  • 圣保罗学校世界上有多所学校名为圣保罗学校:圣保罗中学(伦敦)
  • 二酸甘油酯二酸甘油酯(英语:diacylglycerol,或称为甘油二酯,英语:diglyceride,二酰基甘油,缩写DAG)是一类由两个脂肪酸链和一个甘油分子通过酯键形成的甘油酯。二酸甘油酯有两种类型:1,2-二酸甘
  • 孢印b白色/b孢子印是辨别蘑菇孢子颜色的一种简便易行的方法,它能在缺乏显微镜观察或化学染色的情况下对蘑菇进行初步鉴定。孢子印由菌褶或菌管中的孢子散落沉积而成。制作孢子印时将菌柄
  • Arthropod节肢动物是动物的一类/门,由昆虫纲、甲壳纲、蛛形纲等外骨骼动物组成被称为节肢动物门(学名:Arthropoda)的分类单位。为动物界中所属物种最多的一门, 已被人类命名的昆虫类就有超
  • 安玖深音安玖深 音是日本的女性声优,出身于北海道。主要参与十八禁游戏的配音工作。2006年7月28日创下了六部她参与配音的作品同时发售的记录。2011年2012年2017年2018年2019年
  • 2016年夏季奥林匹克运动会摔跤比赛-男子古典式75公斤级2016年夏季奥林匹克运动会男子古典式75公斤级摔跤比赛于2016年8月14日在巴西里约热内卢卡里奥卡体育馆2举行。俄罗斯选手Roman Vlasov在决赛中以5比1击败丹麦选手Mark Madse
  • 清洗 (医学)清洗(英语:Douche)是一种由于医疗或卫生因素而将水引入体内的操作。清洗通常用于阴道上的清洁,但也能用于其它体腔。阴道的清洗液可能包括水、与醋混合的水,甚至是抗菌化学物。该
  • 锂燃烧锂燃烧普遍存在于棕矮星,但不存在于低质量恒星中。恒星,其定义为核心足以达到氢融合的高温(2.5 × 106 K)条件,迅速的消耗掉它们的锂。当出现锂-7和质子碰撞时会产生两个氦-4的原