双字母组

✍ dations ◷ 2024-11-05 12:32:06 #双字母组
双字母组或称二元语法(英语:bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。Gappy bigrams或称skipping bigrams是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如依赖语法)。Head word bigrams是具有明确依赖关系的gappy bigrams。在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是条件概率应用场景:P ( W n | W n − 1 ) = P ( W n − 1 , W n ) P ( W n − 1 ) {displaystyle P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) over P(W_{n-1})}}即,在给定前面一个词 W n − 1 {displaystyle W_{n-1}} 的前提下,出现某个词 W n {displaystyle W_{n}} 的概率 P ( W n ) {displaystyle P(W_{n})} 与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率 P ( W n − 1 , W n ) {displaystyle P(W_{n-1},W_{n})} 被出现前一个词 W n − 1 {displaystyle W_{n-1}} 的概率除。这种组被用在最成功的一种语音识别的 语言模型中。它们是N字母组的一种特例。本术语也被用在密码学里, 在此领域,试图破解密码电文有时二元语法频率攻击会被用到。参考频率分析。据小英语语料库的统计结果,最常见的字母双字母的频率是:可以获得从更大语料库中提取的完整双字母频率。

相关

  • 体液免疫体液免疫,即通过B细胞产生抗体来达到保护目的的免疫机制,属于特异性免疫。体液免疫作用机制如下:当抗原(细菌、病毒、外来物)第一次感染人体时,会被非特异性免疫的细胞所吞噬、
  • 路易·布莱叶路易·布莱叶(法语:Louis Braille,发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gen
  • 司他夫定司他夫定(英语:Stavudine)也称为 d4T,是预防及治疗艾滋病的抗反转录病毒药物,主要市售药名为滋利特(英语:Zerit) 。一般推荐和其他抗反转录病毒药物一起使用,在受到针扎伤害(英语:needl
  • 本体论本体论(英语:Ontology),又译存在论、存有论,是形而上学的基本分支,本体论主要探讨存有本身,即一切现实事物的基本特征。有的哲学家,如柏拉图学派认为:任何一个名词都对应着一个实际存
  • 马科斯·韦特墨马科斯·韦特墨(Max Wertheimer,1880年4月15日-1943年10月12日)同科特·考夫卡和沃尔夫冈·苛勒一起,是格式塔心理学的创始人。1880年4月15日,韦特墨出生在奥匈帝国的布拉格一个犹
  • 应用后设伦理学 规范性 · 描述性 效果论 义务论 美德伦理学 关怀伦理学 善与恶 · 道德生物伦理学 · 网络伦理(英语:Cyberethics) · 神经伦理学(英语:Neuroethics) ·
  • 河马河马(学名:Hippopotamus amphibius)是偶蹄目、河马科下的一种大型杂食性半水生哺乳动物,河马属现存的唯一物种,产自撒哈拉以南非洲,栖息于热带草原地区的河湖池沼。河马尽管外形似
  • 南部非洲关税同盟南部非洲关税同盟(Southern African Customs Union,缩写SACU)是南部非洲国家成立的关税同盟。南部非洲关税同盟的前身是1910年6月29日南非联邦与南部非洲英属殖民地签订关税同
  • 非同源性末端接合非同源性末端接合 (NHEJ) 是一种修复双股DNA断裂的方法。之所以是非同源性,是因为断裂的两段是被直接接上,而非使用了一个同源的模板。与之对比的同源性重组则需要一个同源序
  • 电子对电子对为位于同一分子轨道的一对不同自旋的电子。其概念由吉尔伯特·路易斯在1916年首次提出。电子为费米子,根据包立不相容原理,一原子中的电子不能有同一量子数。若电子要留