首页 >
双字母组
✍ dations ◷ 2025-04-24 21:28:40 #双字母组
双字母组或称二元语法(英语:bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。Gappy bigrams或称skipping bigrams是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如依赖语法)。Head word bigrams是具有明确依赖关系的gappy bigrams。在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是条件概率应用场景:P
(
W
n
|
W
n
−
1
)
=
P
(
W
n
−
1
,
W
n
)
P
(
W
n
−
1
)
{displaystyle P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) over P(W_{n-1})}}即,在给定前面一个词
W
n
−
1
{displaystyle W_{n-1}}
的前提下,出现某个词
W
n
{displaystyle W_{n}}
的概率
P
(
W
n
)
{displaystyle P(W_{n})}
与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率
P
(
W
n
−
1
,
W
n
)
{displaystyle P(W_{n-1},W_{n})}
被出现前一个词
W
n
−
1
{displaystyle W_{n-1}}
的概率除。这种组被用在最成功的一种语音识别的 语言模型中。它们是N字母组的一种特例。本术语也被用在密码学里, 在此领域,试图破解密码电文有时二元语法频率攻击会被用到。参考频率分析。据小英语语料库的统计结果,最常见的字母双字母的频率是:可以获得从更大语料库中提取的完整双字母频率。
相关
- 非特异性间质肺炎非特异性间质性肺炎(Non-specific interstitial pneumonia,简称NSIP)属于一种特发性间质性肺炎。症状包含咳嗽、呼吸困难,以及疲倦。目前认为属于一种自体免疫有关,可能为未分化
- 安娜·弗洛伊德安娜·弗洛伊德(Anna Freud,1895年12月3日-1982年10月9日)是一位心理学家,西格蒙德·弗洛伊德和马撒的第6个、也是最年幼的孩子。1895年出生在奥匈帝国首都维也纳,追随父亲,对新开
- 半月板半月板(英语:Meniscus)为新月形纤维软骨。相对于关节盘(英语:Articular disk),半月板只会部分分隔滑液关节的关节腔。在人类,半月板存在于膝关节、腕关节、肩锁关节(英语:Acromioclavi
- 克利俄克利俄(希腊语:Κλειώ)是希腊神话中九个缪斯女神之一,司掌历史。与其他缪斯女神一样,她是宙斯与谟涅摩叙涅所生。她与马其顿国王皮埃罗斯生下许阿铿托斯。她被描绘成拿着一卷
- 傅-克酰基化反应傅里德耳-克夫特化酰化反应(简称傅-克酰基化反应)是一种傅-克反应,在质子酸或路易斯酸(如三氯化铝)催化下,芳香性化合物与酰卤或酸酐发生的亲电子取代反应,为一改良的亲电子取代反应。
- 木栓质木栓质(英语:Suberin,亦称为软木脂或木栓素)是一种在高等植物中存在的蜡质。木栓质是木栓的主要组分,此命名是根据栓皮栎而来的。
- 韩国航空宇宙研究院韩国航空宇宙研究院(韩语:한국항공우주연구원;英语:Korea Aerospace Research Institute,缩写:KARI),是韩国航空航天研究的政府机构,总部位于大田市。韩国导弹最初的技术来自其盟友美
- 涅涅茨自治区涅涅茨自治区(俄语:Нене́цкий автоно́мный о́круг,罗马化:Nenetsky avtonomny okrug,涅涅茨语:Ненёцие автономной ӈокрук),是俄
- 弗朗西斯·柯林斯弗朗西斯·柯林斯(英语:Francis S. Collins,1950年4月14日-),美国遗传学家,美国国立卫生研究院院长,领导人类基因组计划,并发现了多种疾病基因。1989年与徐立之共同同发现囊性纤维化
- 希尔多·哈罗德·梅门西奥多·哈罗德·梅曼 (英语:Theodore Harold "Ted" Maiman,1927年7月11日-2007年5月5日),美国物理学家,曾制造了世界上第一台激光器因为这项工作他获得了许多荣誉,他还著有一本名为