双字母组

✍ dations ◷ 2025-04-04 07:37:14 #双字母组
双字母组或称二元语法(英语:bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。Gappy bigrams或称skipping bigrams是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如依赖语法)。Head word bigrams是具有明确依赖关系的gappy bigrams。在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是条件概率应用场景:P ( W n | W n − 1 ) = P ( W n − 1 , W n ) P ( W n − 1 ) {displaystyle P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) over P(W_{n-1})}}即,在给定前面一个词 W n − 1 {displaystyle W_{n-1}} 的前提下,出现某个词 W n {displaystyle W_{n}} 的概率 P ( W n ) {displaystyle P(W_{n})} 与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率 P ( W n − 1 , W n ) {displaystyle P(W_{n-1},W_{n})} 被出现前一个词 W n − 1 {displaystyle W_{n-1}} 的概率除。这种组被用在最成功的一种语音识别的 语言模型中。它们是N字母组的一种特例。本术语也被用在密码学里, 在此领域,试图破解密码电文有时二元语法频率攻击会被用到。参考频率分析。据小英语语料库的统计结果,最常见的字母双字母的频率是:可以获得从更大语料库中提取的完整双字母频率。

相关

  • 胃泌素n/an/an/an/an/an/an/an/an/an/a结构 / ECOD胃泌素(拉丁语:Gastrin)是胃部分泌的一种胜肽荷尔蒙,主要功能为刺激胃壁细胞分泌胃酸,以利消化酵素胃蛋白酶激活,并进行分解蛋白质作用
  • EDTA-2Na乙二胺四乙酸(英语:Ethylenediaminetetraacetic acid),常缩写为EDTA,是一种有机化合物。它是一个六齿配体,可以螯著多种金属离子。它的4个酸和2个胺的部分都可作为配体的齿,与锰(II)
  • 布基纳法索面积以下资讯是以2019年估计家用电源国家领袖国内生产总值(购买力平价) 以下资讯是以2016年估计国内生产总值(国际汇率) 以下资讯是以2016年估计人类发展指数 以下资讯是以2018
  • 细菌学细菌学(英语:bacteriology),一个以研究细菌为主的学科,是微生物学的分支。主要的工作是辨认细菌、培养细菌、分类细菌种属、找出细菌种属的特征。它跟微生物学,有时候会被人当成同
  • 颤搐肌肉颤搐(英语:Myokymia),也作肌纤维颤搐、肌颤搐,是一种不自主的、自发性的局部肌肉或肌肉群抖动现象。和痉挛不同的是,肌肉的颤搐现象所产生的力并不足以使关节移动。颤搐经常会
  • 列支敦士登列支敦士登国家图书馆(德语:Liechtensteinische Landesbibliothek)是列支敦士登的国家图书馆,它也是该国的法定送存图书馆,建立于1961年,位于首都瓦都兹,由列支敦士登国家图书馆基
  • 统计调查社会统计调查有时也被称作“社会调查”或“调查研究”,但它与中文里的“社会调查”是有区别的,社会调查泛指针对特定的议题收集相关的社会资料与数据的过程,而统计调查则专指对
  • 麦克斯韦麦克斯韦(Maxwell),缩写Mx,厘米-克-秒制的磁通量单位。此名称用以纪念苏格兰物理学家詹姆斯·克拉克·麦克斯韦。1900年,麦克斯韦在巴黎举办的International Electrical Congress
  • 美国邮政局美国邮政总局(英语:United States Postal Service,缩写:USPS),又称美国邮局、美国邮政服务,是美国联邦政府的一个独立机构,是少数在美国宪法中提及设立的机构。邮政总局的历史可上溯
  • 精准农业精准农业(precision agriculture)又称精准农作(precision farming)或者是定点作物管理(Site-specific crop management)等是指利用现代信息技术进行精耕细作。精准农业研究的目标是