首页 >
双字母组
✍ dations ◷ 2025-05-16 03:56:24 #双字母组
双字母组或称二元语法(英语:bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。Gappy bigrams或称skipping bigrams是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如依赖语法)。Head word bigrams是具有明确依赖关系的gappy bigrams。在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是条件概率应用场景:P
(
W
n
|
W
n
−
1
)
=
P
(
W
n
−
1
,
W
n
)
P
(
W
n
−
1
)
{displaystyle P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) over P(W_{n-1})}}即,在给定前面一个词
W
n
−
1
{displaystyle W_{n-1}}
的前提下,出现某个词
W
n
{displaystyle W_{n}}
的概率
P
(
W
n
)
{displaystyle P(W_{n})}
与他们构成的双字母组的概率一致,换言之,两个词同时出现的概率
P
(
W
n
−
1
,
W
n
)
{displaystyle P(W_{n-1},W_{n})}
被出现前一个词
W
n
−
1
{displaystyle W_{n-1}}
的概率除。这种组被用在最成功的一种语音识别的 语言模型中。它们是N字母组的一种特例。本术语也被用在密码学里, 在此领域,试图破解密码电文有时二元语法频率攻击会被用到。参考频率分析。据小英语语料库的统计结果,最常见的字母双字母的频率是:可以获得从更大语料库中提取的完整双字母频率。
相关
- 疲劳疲倦或疲劳,是生理信号的一种。是生物其中一种的不舒服感觉。大致可分为精神上和肉体上。短期的疲倦通常是由于过度活动并且缺乏休息所致,严重疲倦或可致命。一般认为疲倦的人
- 固体废弃物的处理与处置固体废物的处理和处置是解决固体废物污染与控制问题的环境工程学科。固体废物处理是指将固体废物变成适于运输、利用、贮存或最终处置的过程。其方法包括物理处理、化学处理
- 法医心理学异常心理学 行为遗传学 生物心理学 心理药物学 认知心理学 比较心理学 跨文化心理学 文化心理学 差异心理学(英语:Differential psychology) 发展心理学 演化心理学 实验心理学
- 第二次工业革命第二次工业革命,也称第二次科技革命,是指1870年至1914年的工业革命。其中西欧(包括英国、德国、法国、低地国家和丹麦)和美国以及1870年后的日本,工业得到飞速发展。第二次工业革
- 六国锦标赛六国锦标赛(Six Nations Championship),全名为六国橄榄球锦标赛,是一年一度的国际橄榄球比赛,创办于1883年。1940年改称为五国锦标赛,2000年再加入意大利,改称六国锦标赛(最近因赞助
- 第三共和国法兰西第三共和国(法语:La Troisième République)是在1870年至1940年统治法国的政权,是首个稳固建立的共和政府。共和国采用议会制民主模式并在1870年9月4日成立,在第二帝国因
- 消化酶消化酶(英语:digestive enzymes)是将聚合的高分子降解为他们的构建单元的酶类,以促进他们被身体吸收。消化酶类可在动物(及人)的消化管内找到,在那里帮助食物的消化,他们也存在于细
- 芦沟桥坐标:39°51′01″N 116°13′09″E / 39.8502497°N 116.2190658°E / 39.8502497; 116.2190658卢沟桥,原名广利桥,位于中华人民共和国北京市丰台区的永定河上,东距宛平城170米
- 海尔德兰省海尔德兰省(荷兰语:Provincie Gelderland)是位于荷兰中部的一个省,首府阿纳姆,人口1,970,865(2005年)。海尔德兰东部和德国接壤,相邻的省份有上艾瑟尔省,弗莱福兰,乌德勒支,南荷兰省,林
- 弗兰克·博尔曼弗兰克·弗雷德里克·博尔曼二世(Frank Frederick Borman II,1928年3月14日-)前美国空军少校及美国国家航空航天局宇航员,以执行首次环绕月球的阿波罗8号任务而闻名。博尔曼出生