语言模型

✍ dations ◷ 2025-09-19 10:12:26 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 自然倾斜角休止角,亦作安息角,是斜面使置于其上的物体处于沿斜面下滑的临界状态时,与水平表面所成的最小角度(即随着倾斜角增加,斜面上的物体将越容易下滑;当物体达到开始下滑的状态时,该临
  • 西班牙文西班牙语(Español),也称卡斯蒂利亚语(Castellano),中文也称西班牙文、西语及西文,是起源于西班牙卡斯蒂利亚地方的语言,为罗曼语族的分支。除了发源地西班牙之外,使用者主要集中在拉
  • 阿齐沙坦阿齐沙坦(又称阿齐沙坦酯,英语:Azilsartan)(INN) 是一款正处于研发中的治疗高血压症的血管紧张素II受体拮抗剂药物,多用于治疗高血压症,也是目前唯一处于末期临床的血管紧张素II受体
  • Aspidosperma见文中白坚木属是开花植物夹竹桃科中的一属,包含物种如下:
  • 阿古斯丁·佩德罗·胡斯托阿古斯丁·佩德罗·胡斯托·罗隆(西班牙语:Agustín Pedro Justo Rolón,1876年-1943年),阿根廷军官、外交官和政治家,阿根廷总统(1932—1938年)。胡斯托出生于恩特雷里奥斯省乌拉圭
  • 吕捷吕捷,本名吕建锋,出生于台湾高雄,是一位历史科补教名师、台湾的YouTube网络红人,同时也是三立新闻台《吕读台湾》的节目主持人。 拥有的多重身份:素人补教历史老师、Youtube网红
  • 2010年6月逝世人物列表2010年6月逝世人物列表,是用于汇总2010年6月期间逝世人物的列表。
  • 丸藤广贵丸藤广贵 (日语:丸藤 広貴,1973年9月13日-),日本男性动画师、插画家、人物设计师。大多以“まるふじひろたか”名义参加动画制作(将汉字全部转换成片假名)。SATELIGHT所属。除了从事
  • 林芝鳞毛蕨林芝鳞毛蕨(学名:)为鳞毛蕨科鳞毛蕨属下的一个种。
  • 宇文贽宇文贽(6世纪-581年),字乾信,北周武帝子。初封秦国公。建德三年(574年),进爵为王。因兄长太子宇文赟失德,内史中大夫王轨曾劝武帝改立秦王为太子。但宇文赟没有被废,并继位为周宣帝。