双字母组

✍ dations ◷ 2025-11-09 03:11:40 #双字母组
双字母组或称二元语法(英语:bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。Gappy bigrams或称skipping bigrams是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如依赖语法)。Head word bigrams是具有明确依赖关系的gappy bigrams。在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是条件概率应用场景:P ( W n | W n − 1 ) = P ( W n − 1 , W n ) P ( W n − 1 ) {displaystyle P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) over P(W_{n-1})}}即,在给定前面一个词 W n − 1 {displaystyle W_{n-1}} 的前提下,出现某个词 W n {displaystyle W_{n}} 的概率 P ( W n ) {displaystyle P(W_{n})} 与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率 P ( W n − 1 , W n ) {displaystyle P(W_{n-1},W_{n})} 被出现前一个词 W n − 1 {displaystyle W_{n-1}} 的概率除。这种组被用在最成功的一种语音识别的 语言模型中。它们是N字母组的一种特例。本术语也被用在密码学里, 在此领域,试图破解密码电文有时二元语法频率攻击会被用到。参考频率分析。据小英语语料库的统计结果,最常见的字母双字母的频率是:可以获得从更大语料库中提取的完整双字母频率。

相关

  • 扩散作用扩散作用是一个基于分子热运动的输运现象,是分子通过布朗运动从高浓度区域(或高化势)向低浓度区域(或低化势)的运输的过程。它是趋向于热平衡态的驰豫过程,是熵驱动的过程。菲
  • 谷氨酰胺合成酶结构 / ECOD结构 / ECOD谷氨酰胺合成酶(英语:glutamine synthetase,GS)是一种控制氮代谢的酶。谷氨酰胺这种氨基酸,不仅被细胞用来合成蛋白质,也是用来运输氮的。自由的铵离子对生
  • UTC-4UTC−04:00时区比协调世界时慢4小时,使用于地区如下:
  • 印刷通用汉字字形表《印刷通用汉字字形表》,中国大陆于1965年出版字表,共收6196字,统一规定当时印刷宋体字形标准,以简化字为主(《简化字总表》1964年发布),附以对应之繁体字。所谓的“新字形”即由此
  • 原肠原肠(archenteron、digestive tube)是在囊胚时期经由原肠形成所完成。最后会形成动物的消化道。有些细胞向囊胚腔内折形成的过程称为内凹。这些细胞重新排列直到宽又浅的凹陷
  • 成药非处方药(over-the-counter (OTC) drug),又称为成药,指的是未经处方而可以从药店购买得到的药品,与处方药相对。这些药品临床应用时间较长、药效确定、药物不良反应较少,患者不须
  • 发情周期发情周期,又名动情周期,是雌性有胎盘哺乳类动物拥有的一种经常性生理变化,由身体的性激素所诱导产生。自前一次排卵期至下一次排卵期之间的时间长度称为一个周期。动物体内的各
  • 复活节复活节(拉丁语:Pascha),又称主复活日,是基督宗教的重要节日之一,最初定在犹太人逾越节之后的星期日,但教会在4世纪第一次尼西亚公会议决议不用犹太历,于是改定为每年春分月圆之后第
  • 德拜模型在热力学和固体物理学中,德拜模型(英语:Debye model)是由彼得·德拜在1912年提出的方法,用于估算声子对固体的比热(热容)的贡献。德拜模型把原子晶格的振动(热)当作盒中的声子处理,而
  • 自动化自动化技术是一门综合性技术,它和控制论、信息论、系统工程、计算机技术、电子学、液压气压技术、自动控制等都有着十分密切的关系,而其中又以“控制理论”和“计算机技术”对