双字母组

✍ dations ◷ 2025-01-31 12:54:29 #双字母组
双字母组或称二元语法(英语:bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。Gappy bigrams或称skipping bigrams是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如依赖语法)。Head word bigrams是具有明确依赖关系的gappy bigrams。在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是条件概率应用场景:P ( W n | W n − 1 ) = P ( W n − 1 , W n ) P ( W n − 1 ) {displaystyle P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) over P(W_{n-1})}}即,在给定前面一个词 W n − 1 {displaystyle W_{n-1}} 的前提下,出现某个词 W n {displaystyle W_{n}} 的概率 P ( W n ) {displaystyle P(W_{n})} 与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率 P ( W n − 1 , W n ) {displaystyle P(W_{n-1},W_{n})} 被出现前一个词 W n − 1 {displaystyle W_{n-1}} 的概率除。这种组被用在最成功的一种语音识别的 语言模型中。它们是N字母组的一种特例。本术语也被用在密码学里, 在此领域,试图破解密码电文有时二元语法频率攻击会被用到。参考频率分析。据小英语语料库的统计结果,最常见的字母双字母的频率是:可以获得从更大语料库中提取的完整双字母频率。

相关

  • 传导性耳聋听觉障碍(英语:Hearing loss)又称听力缺损,指听觉部分或完全丧失,而耳聋人士则是指完全没有或几乎没有听力者。听力缺损可能发生在单耳或双耳,有可能是暂时或永久性质。孩童的听力
  • 催眠药安眠药(英语:Hypnotic) (源自希腊语 Hypnos, sleep(睡眠)),是一类精神药物,用来提升睡眠品质,治疗失眠或术前麻醉,服用过量会致死。目前用于镇静(Sedation)的只有Afloqualone与Cloroqua
  • 例外主义美国例外论(英语:American Exceptionalism),又译美国卓异主义、美国例外主义、美式例外主义,一种理论与意识形态,认为美利坚合众国是个独特的国家,与其他国家完全不同。为亚历西斯
  • 幽门狭窄幽门狭窄(Pyloric stenosis)是指胃部和小肠之间的幽门窄化的状况。症状为喷射性呕吐,且呕吐物不含胆汁,好发于婴儿吃奶之后。此一症状通常出现在婴儿出生二周到十二周之间的期间
  • 威尼斯共和国威尼斯共和国(威尼斯语:Serenìsima Repùblica Vèneta;意大利语:Serenissima Repubblica di Venezia)是意大利北部威尼斯人的城邦,以威尼斯为中心。它存在于8世纪至1797年。拉丁
  • 抗酸染色抗酸染色(英语:Acid-fast stain)由保罗·埃尔利希首次创立,该染色法是用于鉴定抗酸性生物(主要是分枝杆菌属)的细菌学染色法。后来该法被两位德国医生改进:细菌学家弗兰兹·齐尔(185
  • 三相点三相点是指在热力学里,使一种物质三相(气相、液相、固相)达到热力学平衡共存时的一组温度和压强数值。比如,水的固-液-气-三相点是0.01℃(273.16K)及611.73Pa (约等于标准大气压101
  • 二磷酸脱氧鸟苷去氧鸟苷二磷酸(Deoxyguanosine diphosphate;dGDP)是较为常见的核酸GTP之衍生物,比GTP少了一个位在五碳糖2号碳上的-OH基,含有两个磷酸基团。
  • 媒介媒介或媒体是传播渠道、手段或工具,也是将传播过程中的各种因素相互连接起来的纽带。 可以指:
  • 战神广场战神广场(法语:Champ-de-Mars)是一个座落于法国巴黎七区的广大带状公园,介于位在其西北方的埃菲尔铁塔,以及在其东南方的巴黎军校之间。这个广场的名称来自罗马的战神广场,法文中