语言模型

✍ dations ◷ 2024-09-20 13:52:45 #计算语言学,马尔可夫模型

统计式的语言模型是一个几率分布,给定一个长度为 m {\displaystyle m} -元 。

典型地,n-元语法模型概率不是直接从频率计数中导出的,因为以这种方式导出的模型在面对任何之前没有明确看到的n-元时会有严重的问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给看不见的单词或n-元。使用了各种方法,从简单的“加一”平滑(将计数1分配给看不见的n-元,作为一个无信息的先验)到更复杂的模型,例如Good-Turing discounting(英语:Good-Turing discounting)或 back-off 模型(英语:back-off model)。

在二元语法模型中 ( = 2) , 这个句子的概率可以被估计为

而在三元语法模型中,这个句子的概率估计为

注意前 n-1 个词的 n-元会用句首符号 <s> 填充。

最大熵(英语:Principle of maximum entropy)语言模型用特征函数编码了词和n-元的关系。

P ( w m | w 1 , , w m 1 ) = 1 Z ( w 1 , , w m 1 ) exp ( a T f ( w 1 , , w m ) ) {\displaystyle P(w_{m}|w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))}

其中 Z ( w 1 , , w m 1 ) {\displaystyle Z(w_{1},\ldots ,w_{m-1})} 是分区函数(英语:partition function), a {\displaystyle a} 是参数向量, f ( w 1 , , w m ) {\displaystyle f(w_{1},\ldots ,w_{m})} 是特征函数。

在最简单的情况下,特征函数只是某个n-gram存在的指示器。使用先验的 a 或者使用一些正则化的手段是很有用的。

对数双线性模型是指数型语言模型的另一个例子。

相关

  • 性别比性别比(英语:Sex ratio),在生物学中又称性比,是指族群中雄性(男性)对雌性(女性)的比率。在人类中,出生男女的性别比大约为105:100。性别比有以下几个种类:人类可能会无意间影响其他生物
  • 原口动物原口动物(学名:拉丁语:Protostomia),又名前口动物或旧口动物,有完整的消化道。胚胎时期的原口会发展为成体的口,而肛门则是另外形成的。蜕皮动物(Ecdysozoa)和螺旋动物(Spiralia)都属于
  • 解放犹太解放运动(英语:Jewish emancipation)是欧洲犹太人权利自18世纪起从外在和内在同时争取的这一进程。包括同等公民权利的认定,以及个人公民身份的授予等。成果来自于社区内的
  • PPAR过氧化物酶体增殖物活化受体 或称为 脂小体增生活化受体(Peroxisome proliferator-activated receptor,PPARs)在分子生物学的领域里,是一组核受体蛋白 ,具有转录因子的功能,以调控
  • 锡克教信徒锡克人(英语:Sikh;旁遮普语:ਸਿੱਖ,sikkh 国际发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Cod
  • TAS2R50味觉感受器,类型2,成员50,TAS2R50 是一个人类基因组中基因编码的蛋白质,是苦味味觉感受器的一员。
  • KhoreshKhoresh(波斯语:خورش‎)是伊朗式炖菜的总称,有很多不同种类,通常搭配米饭食用。Khoresh在波斯语的字面意义是指“可以吃的东西”。
  • 刘冬 (北京)刘冬(1988年-),指间匠工作室首席执行官,原百度人力资源专员(HR Specialist)。2012年1月7日的百度年会中以性感清新的造型亮相,成为众多程序员心中的“度娘”,其新浪微博的关注数一夜
  • 杨子荣杨子荣(1917年-1947年2月23日),本名杨宗贵,字子荣,山东牟平(现烟台市牟平区)人。1945年参加八路军,历任战士、班长、团侦察排长等职。为东北人民解放军牡丹江军分区干部。父亲杨世恩
  • 邱筱园邱筱园(1878年11月15日-1942年4月7日),名世濬,字筱园,台湾日治时期著名的汉诗人、中医师、实业家、民意代表。邱筱园祖籍福建诏安,其先祖渡台后,原居新竹,后迁八德,他的父亲因生活之故