双字母组

✍ dations ◷ 2024-07-03 08:17:48 #双字母组
双字母组或称二元语法(英语:bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。Gappy bigrams或称skipping bigrams是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如依赖语法)。Head word bigrams是具有明确依赖关系的gappy bigrams。在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是条件概率应用场景:P ( W n | W n − 1 ) = P ( W n − 1 , W n ) P ( W n − 1 ) {displaystyle P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) over P(W_{n-1})}}即,在给定前面一个词 W n − 1 {displaystyle W_{n-1}} 的前提下,出现某个词 W n {displaystyle W_{n}} 的概率 P ( W n ) {displaystyle P(W_{n})} 与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率 P ( W n − 1 , W n ) {displaystyle P(W_{n-1},W_{n})} 被出现前一个词 W n − 1 {displaystyle W_{n-1}} 的概率除。这种组被用在最成功的一种语音识别的 语言模型中。它们是N字母组的一种特例。本术语也被用在密码学里, 在此领域,试图破解密码电文有时二元语法频率攻击会被用到。参考频率分析。据小英语语料库的统计结果,最常见的字母双字母的频率是:可以获得从更大语料库中提取的完整双字母频率。

相关

  • 死亡丧钟死亡丧钟(英语:Death Knell)是教堂里在有人去世后敲响的三次钟中的第二次。以英国来说,它前面一个为Passing Bell(临终之钟),在临死时敲响;后面一个为Lych Bell或Corpse Bell(葬礼之
  • 欧盟乌尔苏拉·冯德莱恩欧洲联盟(英语:European Union;西班牙语:Unión Europea; 法语:Union européenne;德语:Europäische Union),简称欧盟(英语:EU;西班牙语:UE;法语:UE;德语:EU),是欧洲多国共
  • SCWR超临界水反应堆(英语:Supercritical water reactor,缩写:SCWR)是一种第四代反应堆设计,使用超临界水作为工作流体。超临界水反应堆也是一种轻水反应堆(LWR),但是工作流体运作于较高的
  • 横滨港坐标:35°27′00″N 139°38′46″E / 35.45000°N 139.64611°E / 35.45000; 139.64611横滨港(日语:横浜港/よこはまこう Yokohama kō */?)是位于日本神奈川县横滨市的港湾,濒
  • 产前产前出血(Antepartum bleeding)是指在妊娠过程中,孕龄超过20至24周之后,一直到分娩前的阴部出血产前出血和胎儿体重减轻有关系。若在怀孕16周之前使用乙酰水杨酸以预防妊娠毒血
  • 柯欧普神殿考姆翁布是埃及的城镇,由阿斯旺省负责管辖,位于该国东南部尼罗河东岸,距离首府阿斯旺40公里,主要农产品有甘蔗和玉米,2010年人口75,128。
  • 止痛镇痛药(Analgesic)是指能缓解痛的一类药物。该词起源于希腊语中的"an"(意即“没有”)和"algos"(意即“痛”)。镇痛药通过不同的机理作用于中枢和周围神经系统,对痛觉中枢有选择性抑
  • 结构基因组学结构基因组学是一门用结构生物学方法研究整个生物体、整个细胞或整个基因组中所有的蛋白质和相关蛋白质复合物的三维结构的学科。主要利用实验方式(X射线晶体学、核磁共振波
  • Z-DNAZ-DNA又称Z型DNA,是DNA双螺旋结构的一种形式,具有左旋型态的双股螺旋(与常见的B-DNA相反),并呈现锯齿形状。Z-DNA为三种具生物活性的DNA双螺旋结构之一,另两种为A-DNA与B-DNA。Z-D
  • 灰色粘质灰色粘质(英语:gray goo,也拼作grey goo),又称灰蛊或灰雾,是一种假想的世界末日情景,在该情景中失控的大量分子纳米技术(英语:molecular nanotechnology)制成的自我复制机器(英语:self-r