双字母组

✍ dations ◷ 2025-10-20 00:37:23 #双字母组
双字母组或称二元语法(英语:bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。Gappy bigrams或称skipping bigrams是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如依赖语法)。Head word bigrams是具有明确依赖关系的gappy bigrams。在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是条件概率应用场景:P ( W n | W n − 1 ) = P ( W n − 1 , W n ) P ( W n − 1 ) {displaystyle P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) over P(W_{n-1})}}即,在给定前面一个词 W n − 1 {displaystyle W_{n-1}} 的前提下,出现某个词 W n {displaystyle W_{n}} 的概率 P ( W n ) {displaystyle P(W_{n})} 与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率 P ( W n − 1 , W n ) {displaystyle P(W_{n-1},W_{n})} 被出现前一个词 W n − 1 {displaystyle W_{n-1}} 的概率除。这种组被用在最成功的一种语音识别的 语言模型中。它们是N字母组的一种特例。本术语也被用在密码学里, 在此领域,试图破解密码电文有时二元语法频率攻击会被用到。参考频率分析。据小英语语料库的统计结果,最常见的字母双字母的频率是:可以获得从更大语料库中提取的完整双字母频率。

相关

  • 惰性中微子惰性中微子(英语:sterile neutrino)是温暗物质的候选者,不参加除引力以外的任何相互作用。在标准模型中为单态。2016年8月,IceCube中微子观测站宣布,未能在预期值域内找到惰性中微
  • .mw-parser-output ruby.zy{text-align:justify;text-justify:none}.mw-parser-output ruby.zy>rp{user-select:none}.mw-parser-output ruby.zy>rt{font-feature-settings:
  • 演化树系统发生树(英语:phylogenetic tree)又称演化树或进化树(evolutionary tree),是表明被认为具有共同祖先的各物种间演化关系的树状图。是一种亲缘分支分类方法(cladogram)。在图中,每
  • 异养生物异营生物(英语:heterotroph)指不能直接以无机物或有机物,必须摄取现成的养分来维持生存机能的生物。异营生物包括捕食、寄生和腐生三种。 异营性动物细胞需要的物质为水和矿物质
  • 荣·怀登罗纳德·李·“罗恩”·怀登(英语:Ronald Lee "Ron" Wyden;1949年5月3日-),是一位美国民主党政治人物,自1996年成为俄勒冈州联邦参议院议员。此前他曾是美国众议院1981年至1996年期
  • 5f13 7s22, 8, 18, 32, 31, 8, 2主条目:钔的同位素钔是一个人工合成元素,化学符号为Md(曾作Mv),原子序是101。钔是锕系元素中具有放射性的超铀金属元素,在锕系元素排倒数第三位、
  • 上比利牛斯省上比利牛斯省(法语:Hautes-Pyrénées)是法国朗格多克-鲁西永-南部-比利牛斯大区所辖的省份。该省编号为65。上比利牛斯省由几个不同的地理区域。其南部与西班牙边境相连,由山脉
  • 格拉布罗伯特·格拉布 (英语:Robert H. Grubbs,1942年2月27日-),美国化学家,诺贝尔奖获得者。出生于肯塔基州的凯尔弗特市,靠近Possum Trot,在佛罗里达大学学化学,获得学士、硕士学位,而后在
  • 纳机电系统奈机电系统(英语:Nanoelectromechanical systems,简称NEMS)与 微机电系统(MEMS)概念相似,不过尺度更小。他们承诺具有革命性的能力去测量小到分子尺度的位移和力,并且与纳米科技密切
  • 拉罗什基永1法国统计部门在计算土地面积时,不计算面积大于1平方公里的湖泊、池塘、冰川和河口。拉罗什吉永(法语:La Roche-Guyon)是法国法兰西岛大区 瓦兹河谷省的一个市镇,位于该省西南部,