语言模型

✍ dations ◷ 2025-07-01 05:20:32 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 氮气2s2 2p32, 5蒸气压第一:1402.3 kJ·mol−1 第二:2856 kJ·mol−1 第三:4578.1 kJ·mol−1 (主条目:氮的同位素氮是一个化学元素,化学符号为N,原子序为7,在丹尼尔·卢瑟福在1772
  • 基膜基底膜(英语:basement membrane)是位于上皮组织下的一层,无细胞且富含纤维的结缔组织,分隔上皮、间皮、内皮,通常位于体腔或器官表面,或是血管内皮的基底面。基底膜是由基底层(英语:b
  • 1478年重要事件及趋势重要人物
  • 伊利诺州伊利诺伊州(英语:State of Illinois,i/ˌɪləˈnɔɪ/),简称伊州,是一个位于美国中西部的州,州名源自曾在此居住的伊利尼维克(Illiniwek)印第安人部落。“Illinois”这个名字就是法
  • 阮籍阮籍(210年-263年),字嗣宗,陈留尉氏(今河南开封)人,中国三国时期魏国诗人、官员,“竹林七贤”之一。曾任步兵校尉,人称阮步兵。与嵇康并称嵇阮。父亲阮瑀,为曹操文吏,多出章表,位列“建安
  • 肺癌分期肺癌是依照 TNM 系统(tumor-node-metastasis)分期,T代表肿瘤本身的大小或是侵犯范围,N代表周边淋巴结侵犯及转移,M代表远端转移。临床上,医师会依据影像检查、病理报告等资讯决定T
  • 勒梅茨乡坐标:46°18′N 23°32′E / 46.300°N 23.533°E / 46.300; 23.533勒梅茨乡(罗马尼亚语:Comuna Râmeț, Alba),是罗马尼亚的乡份,位于该国中部,由阿尔巴县负责管辖,面积79平方公里
  • 亚曼达·拜恩斯亚曼达·劳拉·拜恩斯(英语:Amanda Laura Bynes,1986年4月3日-),美国女演员,出生于加州千橡市(Thousand Oaks, CA)。童星出身的拜恩斯曾在儿童电视频道尼克罗顿(Nickelodeon)担任过节目
  • RichFacesRichFaces是一个开放源代码的JavaServer Faces组件库,帮助企业级Java应用程序集成AJAX相关的功能,由WildFly(原名JBoss)提供支援。除了通常的JavaServer Faces组件库以外,RichFac
  • 唐吉诃德海贼团唐吉诃德海贼团(ドンキホーテ海賊団),又称唐吉诃德家族(ドンキホーテファミリー),是尾田荣一郎创作的日本漫画《ONE PIECE》中著名的一个海贼团。时任王下七武海唐吉诃德·多佛朗