语言模型

✍ dations ◷ 2025-04-04 20:52:58 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 动物学名二名法(英语:Binomial Nomenclature,Binominal Nomenclature 或 Binary Nomenclature),又称双名法,依照生物学上对生物种类的命名规则,所给定的学名之形式,自林奈《植物种志》(1753
  • 费雷德里克·戴克拉克弗雷德里克·威廉·德克勒克(南非语:Frederik Willem de Klerk,1936年3月18日-),南非政治家,该国迄今为止的最后一任白人总统,也是废除种族隔离制度的推手。德克勒克出生于约翰内斯
  • 光化学烟雾光化学烟雾(Photochemical smog)指的是一系列对环境和健康有害的化学品。称之为光化学烟雾是因为它们是由氮氧化物及挥发性有机物等污染物质光解而产生的,之后会留下悬浮粒子及
  • 后见之明偏误后见之明偏误(Hindsight bias)指当人们得知某一事件结果后,夸大原先对这一事件的猜测的倾向,俗语称“事后诸葛亮”或“事后孔明”。后见之明偏见的一个基本的例子是,在知道一个不
  • 刘佳刘佳(1960年10月17日-),女,黑龙江鹤岗人,中国演员,一级演员。1960年出生于黑龙江省鹤岗市,1978年进入北京电影学院表演系学习。1982年毕业后分配到天津电视台。现为职业演员。
  • 铂的同位素铂(原子量:195.084(9))的同位素,当中有3个是稳定的,以及3个天然放射性同位素190 Pt、192 Pt、198 Pt,不过只有190 Pt的半衰期为已知,另外两个则只有下界。备注:画上#号的数据代表没
  • 亚当–威廉姆森方程亚当–威廉姆斯方程是指一个用来确定密度的方程。该方程常用于确定地震波的速度与地球内部密度之间的关系。通过岩石的平均密度和P波、S波的速度的函数分布,它可以预测地球密
  • 丁宝铨丁宝铨(1866年-1919年),字衡甫、号默存、谥恪敏,江苏省淮安府山阳县(今江苏省淮安县)人,清末民初政治人物,光绪年间进士出身。光绪十四年(1889年)中举人,次年联捷进士,在吏部文选司行走。
  • 于风政 于风政(1956年9月-),山东临朐县人,北京师范大学法学博士,中国著名宪法学家,知名法学教育家。现任北京师范大学珠海分校党委副书记,法律与行政学院院长,北京师范大学政治学与国际关系
  • 汪鸾翔汪鸾翔(1871年3月-1962年7月23日),广西桂林临桂人,清华大学教授,是清华校歌的作词人。汪鸾翔出生在广西桂林的一个书香门第,5岁时就由祖母和母亲授以唐诗三百首和诗经。1885年,汪鸾