语言模型

✍ dations ◷ 2025-11-29 16:16:36 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 建筑声学建筑声学主要研究以下几个方面:
  • 印度尼西亚银行印度尼西亚银行(中文简称印尼银行;印尼语:Bank Indonesia,简称为BI)是印度尼西亚共和国的中央银行,成立于1953年,总部位于首都雅加达。印尼银行依法系作为一个独立的公共法人实体
  • 温哥华温哥华市(英语:Vancouver)是美国华盛顿州的一个城市,位于哥伦比亚河北岸,于1825年开埠,是华盛顿州第四大城,2010年美国人口普查时人口为161,791人。温哥华为克拉克县的县治,也是波特
  • 约瑟夫·路易·盖-吕萨克约瑟夫·路易·盖-吕萨克(法语:Joseph Louis Gay-Lussac,1778年12月6日-1850年5月10日),法国化学家和物理学家,以研究气体而闻名。盖-吕萨克出生于法国上维埃纳省的圣利奥纳德,并在
  • 会厌音会厌音(epiglottal consonant、会厌辅音)为杓会厌襞(英语:Aryepiglottic fold)(杓会厌皱褶、杓状会厌襞,位于咽头下部)对会厌之闭锁与张开其间隙开合的交作发音所产生之辅音。亦称之
  • 女子高尔夫世界排名女子高尔夫世界排名最早在2006年6月正式开始统计女子选手的积分,该排名被五大高尔夫巡回赛和组织所认可,包括美国女子职业高尔夫协会、欧洲女子巡回赛、日本女子职业高尔夫协
  • 林芳仕林芳仕(1973年6月19日-),出生于台湾南投县竹山镇,为台湾镶嵌及窑烧玻璃艺术家。林芳仕于1991年毕业于国立竹山高中美工科,在1995年起开始从事艺术玻璃制作,妻子陈璐昂是画家,两人互
  • 尤里·康德拉图克尤里·瓦西里耶维奇·康德拉图克(乌克兰语:Юрій Кондратюк,英语:Yuriy Vasilievich Kondratyuk),真名亚历山大·赫纳托维奇·沙尔基(乌克兰语:Олександр Гн
  • 雅典通讯社雅典通讯社是希腊两大通讯社之一。雅典通讯社成立于1895年,当是的名字Stefanopoli Telegraphic Agency。1905年,雅典开始资助通讯社的营运,通讯社正式易名为现今的名称。雅典通
  • 1997年NBA总决赛1997年NBA总决赛是1996-97 NBA赛季的冠军争夺战。当年东部冠军芝加哥公牛与西部冠军犹他爵士进行七场四胜制的赛事。公牛队以4比2的比分赢得了整个系列赛,从而获得了连续的第