语言模型

✍ dations ◷ 2025-12-11 10:49:24 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 唐纳德·赫布唐纳德·赫布,FRS(英语:Donald Olding Hebb,1904年7月22日-1985年8月20日),加拿大心理学家,在神经心理学领域有重要贡献,致力于研究神经元在心理过程中的作用。他被认为是神经心理学
  • 阿拉伯文阿拉伯语(اَلْعَرَبِيَّةُ‎ al-ʻarabiyyah 或者 عربي/عربى‎ ʻarabī ),中文也称阿拉伯文,是除了英语和法语之外最多国家使用的官方语言。阿拉伯语
  • 皇家学会伦敦王家自然知识促进学会(英语:Royal Society of London for Improving Natural Knowledge),简称“王家学会”(Royal Society),但多译作“皇家学会”,是英国资助科学发展的组织,成立
  • 电子布告栏系统电子布告栏系统(英语:Bulletin Board System,缩写作 BBS)是一种网站系统,是当前流行网络论坛的前身,它允许用户使用终端程序通过调制解调器拨接或者因特网来进行连接,BBS站台提供布
  • 躯体神经系统躯体神经系统(又称动物神经系统)和内脏神经系统共同组成脊椎动物的周围神经系统。这部分的神经与骨骼肌的自主(有意识的)控制有关。在周围神经系统和中枢神经系统都有躯体神经
  • 应用力学研究所国立台湾大学应用力学研究所(英语:Institute of Applied Mechanics, National Taiwan University),简称台湾大学应力所、台大应力所。于1983年,由虞兆中校长、中山科学研究院黄孝
  • 南开大学校友列表南开大学是中国最著名的大学之一。自建校以来,南开大学始终以民族复兴和社会进步为己任,与国家命运紧密联系,与时代同发展,秉承“允公允能,日新月异”的校训,走过了极不平凡的发展
  • 痴痴的爱《痴痴的爱》(英语:)是美国歌手Lady Gaga录制的一首歌曲。作品于2020年1月曝光,2020年2月28日正式发行,是嘎嘎第六张录音室专辑《神彩(英语:Chromatica)》(2020年)的首支单曲。歌曲的
  • 涓生史涓生是鲁迅的爱情小说《伤逝》的男主人公。小说的副标题为“涓生的手记”,文章以涓生为第一人称,叙述了涓生与子君的爱情悲剧。涓生是五四运动之后,民国时期的一名知识青年。
  • 建筑结构设计建筑结构设计是建筑设计工作的一部分,指利用力学原理模拟分析建筑物或者构筑物的承载能力,设计出满足其功能要求的结构形式,并配合建筑、给水排水、暖通空调、电气等专业完成建