语言模型

✍ dations ◷ 2025-07-06 07:55:48 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 氯硝西泮氯硝西泮(Clonazepam),常见商品名“Klonopin”,为一种苯二氮䓬类镇定剂,常用于治疗及预防癫痫发作、恐慌症,以及静坐不能。本品可以口服,药物会在服药后1小时内作用,效果可维持6至12
  • 印尼高速铁路印尼高速铁路的计划于2015年7月公布。这个印尼首条高铁的路线连接首都雅加达和西爪哇省的省会万隆,全长150公里,并有可能再延长至印尼第二大城,东爪哇省的泗水。中国和日本都已
  • 热情×冷颤《热情×冷颤》 (日语:がく×ぶる)由本田透所作的日本轻小说。外表是个可爱男生御影美千绪因女性过敏症而无法触碰女孩子,为了克服过敏症因而转到男女合校,且因朋友冈本三十郎的
  • 西属德克萨斯西属德克萨斯(西班牙语:Texas Español或Texas Español)是新西班牙总督辖区的一个内陆省份,从1690直到1821年。西班牙声称拥有今天美国德克萨斯州的部分领土,包括麦地那河和努埃
  • 拉蒙·梅迪纳·贝洛拉蒙·梅迪纳·贝洛(1966年4月29日-),前阿根廷职业足球员,阿根廷国家足球队成员。从1991年到1994年,他共为阿根廷国家足球队出场17次,打进5球。
  • 王圆箓王圆箓(1851年-1931年),中国清末民初道士,祖籍湖北麻城。1900年6月22日,在敦煌莫高窟居住的道士王圆箓,为了保护莫高窟,四处筹集钱财,进行大规模清扫。当日他的助手杨果往第16窟(现编
  • 行政院农业委员会林务局农林航空测量所行政院农业委员会林务局农林航空测量所(简称农航所)是行政院农业委员会林务局的所属机构。负责以航拍摄影对全台湾(含离岛)进行农林等自然资源调查,并以所拍摄图片建立航拍数据库
  • 小松政夫小松政夫(1942年1月10日-),原名松崎 雅臣(まつざき まさおみ),是出身于日本福冈县福冈市的搞笑艺人、演员。1961年以演员作为目标进东京,在鱼河岸等等经验了各种各样的职业。在当汽
  • 相对论性喷流相对论性喷流(英文:)是来自某些活动星系、射电星系或类星体中心的强度非常高的等离子体喷流。这种喷流的长度可达几千甚至数十万光年。现在一般认为相对论性喷流的直接成因是中
  • 普查规定居民点普查规定居民点(英语:census-designated place,缩写CDP),又译为人口普查指定地区,是美国人口普查局为了统计需要所划定的人口调查点。这些地方并不拥有独立的地方政府单位,却因为人