双字母组

✍ dations ◷ 2025-08-29 21:37:16 #双字母组
双字母组或称二元语法(英语:bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。Gappy bigrams或称skipping bigrams是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如依赖语法)。Head word bigrams是具有明确依赖关系的gappy bigrams。在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是条件概率应用场景:P ( W n | W n − 1 ) = P ( W n − 1 , W n ) P ( W n − 1 ) {displaystyle P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) over P(W_{n-1})}}即,在给定前面一个词 W n − 1 {displaystyle W_{n-1}} 的前提下,出现某个词 W n {displaystyle W_{n}} 的概率 P ( W n ) {displaystyle P(W_{n})} 与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率 P ( W n − 1 , W n ) {displaystyle P(W_{n-1},W_{n})} 被出现前一个词 W n − 1 {displaystyle W_{n-1}} 的概率除。这种组被用在最成功的一种语音识别的 语言模型中。它们是N字母组的一种特例。本术语也被用在密码学里, 在此领域,试图破解密码电文有时二元语法频率攻击会被用到。参考频率分析。据小英语语料库的统计结果,最常见的字母双字母的频率是:可以获得从更大语料库中提取的完整双字母频率。

相关

  • 姆大陆姆大陆(Mu continent,又译穆大陆、母大陆、欧姆大陆)是一个传说中存在于太平洋的大陆,并且声称有超过一万年的历史。20世纪初,美国学者詹姆斯·柴吉吾德(英语:James Churchward)提出
  • 阿瓦尔人阿瓦尔人在古代是欧亚大陆的一个游牧民族的名称。他们约在6世纪时迁徙到欧洲中部和东部。到9世纪初以前,一直统治潘诺尼亚平原。因与高加索地区的阿瓦尔人进行区别也称潘诺尼
  • 退行性疾病退行性疾病(degenerative disease)是一种受害组织或器官的功能或结构逐步恶化的疾病,可以是由人体老化,可以因生活方式的选择,如运动或饮食习惯。退化性疾病往往与传染病形成鲜明
  • 克非尔克非尔(英语:kephir 或 Kefir,也译为克菲尔、开菲尔),又称为牛奶酒、咸酸 奶,是一种发源于高加索的发酵牛奶饮料。这种饮料是通过在牛奶或羊奶上接种上一批的克非尔粒-或称为克非
  • 文献文献一词最早见于《论语·八佾》:“子曰,夏礼,吾能言之,杞不足征也。殷礼,吾能言之,宋不足征也。文献不足故也。足,则吾能征之矣。”文指典籍,献指人才。朱熹《论语集注》中解释:“文
  • 戴维·瓦恩兰戴维·瓦恩兰(英语:David Jeffrey Wineland,1944年2月24日-),美国物理学家,在科罗拉多州博尔德的美国国家标准与技术局(NIST)物理实验室与科罗拉多大学博尔德分校工作。他的工作主要
  • 比例代表制比例代表制(Proportional Representation,PR),是议会选举中分配议席的主要两种方法之一,另一则是多数制。比例代表制以每一参选组别所得选票占全部的百分比分配议席,反映社会多元
  • 五月初公共假日5月1日的五朔节对于许多北半球各地的文化而言是春季的传统节日,通常是公共节日 。五朔节与凯尔特人节日 Beltane 及日耳曼人的节日沃普尔吉斯之夜有关。五朔节距11月1日正好
  • 詹妮弗·杜德纳詹妮弗·安妮·杜德纳(英语:Jennifer Anne Doudna,1964年2月19日-),美国生物学家,加州大学伯克利分校的化学和分子生物学与细胞生物学教授。自1997年以来,她是霍华德·休斯医学研究
  • 病毒界一个位于宿主细胞之外的独立、功能完全的病毒颗粒一些病毒拥有的包裹病毒体的脂肪泡一段DNA或RNA。如果把核苷酸比作字的话,那么基因就是由核苷酸写成的句子。基因会指导病毒