语言模型

✍ dations ◷ 2025-12-05 06:07:54 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 死刑犯死刑犯(英语:Death row,或称死囚、死刑囚犯)常指被司法宣判为死刑,而尚未被处决的犯人。他们被监禁在监狱中(中国大陆、台湾及日本的死刑犯则是囚禁在看守所内),等待死刑的执行。但
  • 描述逻辑描述逻辑(description logic)是一种用于知识表示的逻辑语言和以其为对象的推理方法,主要用于描述概念分类及其概念之间的关系。描述逻辑方法多数被用到涉及知识分类的应用领域,
  • 自然演绎在数理逻辑中,自然演绎是证明论中尝试提供象“自然”发生一样的逻辑推理形式模型的一种方式。这种方式对比于使用公理的公理系统。自然演绎来源自对共通于弗雷格、罗素和希尔
  • 中华医学会精神病学分会中华医学会精神病学分会是中华人民共和国最大精神科医生组织,出版《中国精神疾病分类方案与诊断标准》和临床诊疗指引,亦促进精神科的实践、研究和交流、培训专业人员,并举行学
  • 君主巴巴多斯君主,巴巴多斯的君主称号。巴巴多斯的国家元首,由英国君主兼任。1966年11月30日巴巴多斯从英国独立后,王位设立,作为英联邦内的独立君主国。巴巴多斯君主仅为国家之象征
  • 皇家海军(英语:Royal Navy,缩写为RN),亦称英国皇家海军或英国海军,是英国的首要海上作战部队。9世纪时阿尔弗雷德大帝首先开始使用海上军队,而自14世纪初起英格兰海军开始参与海战
  • 圣保罗圣保罗(葡萄牙语:São Paulo,葡萄牙语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","
  • 天安舰事件天安号沉没事件是指2010年3月26日晚间,载着韩国海军104人的天安号护卫舰,在黄海海域白翎岛和大青岛之间巡逻时,突然沉入海底的事件 ,沉船导致46名舰上官兵死亡。爆炸原因至今未
  • 匀速运动匀速运动,也称为等速度运动、等速直线运动或等速度直线运动。假设一个物体在每一段相同的时间内的移动距离都相等的话,则此现象我们称之该物体为等速度直线运动,简称为等速度运
  • SPOT卫星SPOT卫星(法语:Satellite pour l’observation de la Terre)是法国发射的一种地球观测卫星。卫星由Spot Image公司负责运营。从1986年起一共发射了6颗SPOT卫星。卫星在太阳同步