首页 >
双字母组
✍ dations ◷ 2025-06-07 00:13:56 #双字母组
双字母组或称二元语法(英语:bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。Gappy bigrams或称skipping bigrams是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如依赖语法)。Head word bigrams是具有明确依赖关系的gappy bigrams。在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是条件概率应用场景:P
(
W
n
|
W
n
−
1
)
=
P
(
W
n
−
1
,
W
n
)
P
(
W
n
−
1
)
{displaystyle P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) over P(W_{n-1})}}即,在给定前面一个词
W
n
−
1
{displaystyle W_{n-1}}
的前提下,出现某个词
W
n
{displaystyle W_{n}}
的概率
P
(
W
n
)
{displaystyle P(W_{n})}
与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率
P
(
W
n
−
1
,
W
n
)
{displaystyle P(W_{n-1},W_{n})}
被出现前一个词
W
n
−
1
{displaystyle W_{n-1}}
的概率除。这种组被用在最成功的一种语音识别的 语言模型中。它们是N字母组的一种特例。本术语也被用在密码学里, 在此领域,试图破解密码电文有时二元语法频率攻击会被用到。参考频率分析。据小英语语料库的统计结果,最常见的字母双字母的频率是:可以获得从更大语料库中提取的完整双字母频率。
相关
- 亨廷顿氏舞蹈病亨廷顿舞蹈症(Huntington's Disease, HD)是一种遗传性疾病,会导致脑细胞死亡。早期症状往往是情绪或智力方面的轻微问题,接着是不协调和不稳定的步伐(英语:Gait)。随着疾病的进展,身
- 食欲食欲(Appetite)是指一个人对于食物进食的渴望,有时可能是因为饥饿所造成,不过具吸引力的食物可能会让人在不饥饿时仍然有食欲。食欲可以调节能量的摄取,以维持身体代谢所需的量,其
- 伊壁鸠鲁伊壁鸠鲁(Ἐπίκουρος,前341年-前270年)古希腊哲学家、伊壁鸠鲁学派的创始人。伊壁鸠鲁成功地发展了阿瑞斯提普斯(Aristippus)的享乐主义,并将之与德谟克利特的原子论结合起
- 泌尿科学人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学泌尿外科是专门研究男女泌尿系统与男
- 风暴海坐标:18°24′N 57°24′W / 18.4°N 57.4°W / 18.4; -57.4风暴洋(拉丁语:Oceanus Procellarum,IPA:/oʊˈsiːənəs ˌprɒsᵻˈlɛərəm/;拉丁文意为“风暴之洋”)是月球近月
- 埃迪卡拉纪生物大爆发埃迪卡拉生物群(英语:Ediacaran biota)又称艾迪卡拉生物群,是一种神秘的管状或叶状生物,生活在前寒武纪时代(6亿3500万年前-5亿4200万年前)。它们是目前所发现最早的多细胞生物。最
- 喷出岩喷出岩是一种火成岩,也被称为火山岩,是由火山喷出的岩浆在地表迅速冷却凝固后形成的岩石,由于冷却速度很快,一般喷出岩的结构会形成细粒、隐晶,或形成玻璃质,经常包含有碎屑和斑晶
- 菲尼斯泰尔省菲尼斯泰尔省(法语:Finistère、布列塔尼语:Penn-ar-bed)是法国布列塔尼的一个省。省名是拉丁语“大地尽头”的意思,取义于该省位于法国欧洲大陆部分的最西部。这个省和莫尔比昂
- 红藻纲More may exist?红藻纲是红藻门旗下两个纲之一,包含了大多数的红藻。
- 附属消化腺消化系统(英语:digestive system)是多细胞生物用以进食、消化食物、获取能量和营养、排遗剩余废物的一组器官,其主要功能为摄食、消化、吸收、同化和排遗。其中有关排遗的部分,也