双字母组

✍ dations ◷ 2025-06-27 22:33:08 #双字母组
双字母组或称二元语法(英语:bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。Gappy bigrams或称skipping bigrams是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如依赖语法)。Head word bigrams是具有明确依赖关系的gappy bigrams。在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是条件概率应用场景:P ( W n | W n − 1 ) = P ( W n − 1 , W n ) P ( W n − 1 ) {displaystyle P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) over P(W_{n-1})}}即,在给定前面一个词 W n − 1 {displaystyle W_{n-1}} 的前提下,出现某个词 W n {displaystyle W_{n}} 的概率 P ( W n ) {displaystyle P(W_{n})} 与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率 P ( W n − 1 , W n ) {displaystyle P(W_{n-1},W_{n})} 被出现前一个词 W n − 1 {displaystyle W_{n-1}} 的概率除。这种组被用在最成功的一种语音识别的 语言模型中。它们是N字母组的一种特例。本术语也被用在密码学里, 在此领域,试图破解密码电文有时二元语法频率攻击会被用到。参考频率分析。据小英语语料库的统计结果,最常见的字母双字母的频率是:可以获得从更大语料库中提取的完整双字母频率。

相关

  • HICD-10 第七章:眼和附器疾病,为世界卫生组织编写的ICD-10中关于眼和附器疾病的分类。眼睑、泪器系和眼眶疾患(H00-H06)结膜疾患(H10-H13)巩膜、角膜、虹膜和睫状体疾患(H15-H22)晶状
  • 柳氮磺吡啶柳氮磺胺吡啶(Sulfasalazine),缩写为SSZ,是一种磺胺类药物,可用于治疗类风湿性关节炎、溃疡性结肠炎,以及克罗恩病。柳氮磺胺吡啶最早于1950年在美国获批上市,目前仍然是治疗类风湿
  • MEP巨核细胞–红细胞祖细胞(megakaryocyte–erythroid progenitor cell、或MEP、或人类HMEP)是一种,使人们产生巨核细胞及红血球的细胞。它是从共同骨髓祖(CFU-GEMM)而得。
  • 篆书陶文 ‧ 甲骨文 ‧ 金文 ‧ 古文 ‧ 石鼓文籀文 ‧ 鸟虫书 ‧ 篆书(大篆 ‧  小篆)隶书 ‧ 楷书 ‧ 行书 ‧ 草书漆书 ‧  书法 ‧ 飞白书笔画 ‧ 
  • 蒽醌类药物蒽醌(Anthraquinone,化学式:C14H8O2),又音译作安特拉归农,是一种醌类化学物。蒽醌的复合物存在于天然,也可以人工合成。工业上,不少染料都是以蒽醌作基体;而不少有医疗功效的药用植物
  • 17-羟孕酮17α-羟孕酮(英语:17α-Hydroxyprogesterone,17α-OHP),有时就简称为羟孕酮(英语:hydroxyprogesterone,OHP)是一种孕酮类似的内源性的孕激素类甾体激素,同时也是很多内源性甾体激素生
  • 双键在有机化学中,双键(英语:Double Bond),是对含1根σ键和1根π键的共价键的分类称呼。在化合物分子中,两个原子间以二个共用电子对构成的共价键,被称之为双键;而在双键上的原子,都在同
  • 午餐午餐(又名午饭、中餐、中饭等等),是指大约在中午或者之后一段时间所用的一餐。在中国大陆及港澳地区,午餐的用餐时间通常在十一点至十四点间;在传统农村社会,中饭多在正午12进食,以
  • 宗法制四配颜回 · 孟子 · 曾参 · 孔伋日本藤原惺窝 · 林罗山 · 室鸠巢新井白石 · 雨森芳洲朝鲜薛聪 · 权近 · 吉再 · 安珦 · 李穑李滉 · 王仁 · 李齐贤 
  • 圣日耳曼奥塞尔教堂圣日耳曼欧塞尔教堂(Saint-Germain-l'Auxerrois)位于巴黎卢浮宫广场2号,最近的地铁站是卢浮宫-里沃利。位于巴黎市中心,邻近塞纳河及卢浮宫,曾是法国国王的堂区,通常被视为是卢浮