语言模型

✍ dations ◷ 2025-12-09 07:48:38 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 美国食品药物管理局美国食品药品监督管理局(英语:U.S. Food and Drug Administration,缩写为FDA)为美国卫生与公众服务部直辖的联邦政府机构,其主要职能为负责对美国国内生产及进口的食品、膳食补充
  • 执政官罗马执政官列表可以指:
  • 菲律宾人1排: 科拉松·阿基诺 · 埃米利奥·阿奎纳多 · 莫拉莱斯· 格洛丽亚·马卡帕加尔-阿罗约 2排:菲律宾人是菲律宾共和国的主体民族,也指具有菲律宾血统的人。在菲律宾国内
  • 页岩气页岩气是一种以游离和吸附为主要赋存方式而蕴藏于页岩层中的天然气,并且该吸附过程以物理吸附、自发进行以及放热为特征。过去十年内,页岩气已成为美国一种日益重要的天然气资
  • 苦艾酒苦艾酒(法语:Absinthe: .mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gentium","Gentiu
  • 同盟国同盟国(德语:Mittelmächte;匈牙利语:Központi hatalmak;土耳其语:İttifak Devletleri;保加利亚语:Централни сили,意思是中央国)由德意志帝国、奥匈帝国、奥斯曼帝国
  • 颅骨膜骨膜是附着在除长骨关节外所有骨骼外层的薄膜。所有骨骼内侧都有骨内膜(英语:endosteum)。骨膜内含有致密不规则结缔组织(英语:dense irregular connective tissue)。骨膜从外至内
  • 阿耆尼阿耆尼(梵语:अग्नि,Agni),即火天,是吠陀教及印度教的火神。阿耆尼——अग्नि本身即是梵文“火焰”的名词,与拉丁语的火焰—-“ignis”是同源词(及与英文动词着火“ignite”
  • 天牛科10个亚科,详见内文天牛科(学名:Cerambycidae),其物种通称作天牛,是鞘翅目昆虫的一个科。已知26,000种以上,分布于全世界,当中有稍微多于一半分布于东半球。这些物种以食草动物为主,包
  • 朝河兰朝河兰(日语:あさかわ らん,1980年9月4日-),初期曾使用过清水优香 〈Shimizu Yuka〉的艺名,又名武藤兰〈Mutou Ran〉,日本成人影片女演员,隶属于新日本企画(新日本プロジェクト,又名mae