字母频率

✍ dations ◷ 2025-06-08 10:01:23 #密码学,语言学,语言学术语,计量语言学

字母频率(frequency of letters; character frequencies),指的是各个字母在文本材料中出现的频率。常被应用于密码学,尤其是可破解古典密码的频率分析。在英语中最常见的字母是e。而在铅字印刷时代,人们已根据经验在Linotype排字机上将字母按常用与否排列成etaoin shrdlu(英语:ETAOIN SHRDLU) cmfwyp vbgkjq xz 。还有,摩斯电码中越常用的字母,其编码符号就越短;而发出各字母的用时由快到慢顺序是e it san hurdm wgvlfbk opjxcz yq。数据压缩技术中也有相似的方法,如霍夫曼编码就是按来源符号出现的机率大小去编码。

有分析显示字母频率就像词频(英语:word frequencies),不同作者或写作主题的作品中往往各不相同。当为x射线(x-rays)撰文时,文章中就会有大量的字母X。而撰写用x射线治疗卡塔尔(Qatar)的斑马(zebras)时,一般很少出现的字母X、Q和Z就会充斥文中。可从作者的字母使用频率中看出他的某些写作习惯。例如,海明威的写作风格明显不同于福克纳。字母、双字母组、三字母组(英语:trigram)、单词频率、单词长度和句子长度,这些都可以经统计后用以证明或反驳某一作品是某作者所写,甚至待鉴别作品与作者的写作风格相近也可用这一方法。

只能靠分析大量有代表性的文本才可得出准确的字母平均频率,而借由现代计算机和庞大的文本语料库,很容易完成这样的统计工作。又聋又瞎网(Deafandblind)列出了各种文本材料(新闻报告、宗教文本、科学文本和一般小说)的字母频率顺序,其中在一般小说类里,字母“h”与“i”的排位差异尤甚,由Linotype排字机的“etaoin shrdlu”变成了“etaohn isrdlu”。

赫伯特·S·基姆(英语:Herbert Zim)在他那部经典的密码学入门著作 《密码和隐密写作》(Codes and Secret Writing)里提道:英文的字母频率排列顺序是ETAON RISHD LFCMU GYPWB VKJXQ Z,最常见的字母对是TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI AS TO,最常见的连写字母对是LL EE SS OO TT FF RR NN PP CC。

使用最多的前12个字母占了总使用次数的80%,使用最多的前8个字母则占了总使用次数的65%。数种排名函数(英语:rank functions)能很好地拟合字母频率,而双参数Cocho/Beta排名函数(two-parameter Cocho/Beta rank function)是当中的佼佼者。用另一种不能调节参数的排名函数也能不错地拟合字母频率分布,该函数也能拟合蛋白质序列中的氨基酸频率。

使用VIC暗号(英语:VIC cipher)或其他基于纵横棋盘格的暗号时,间谍常用助记符如“a sin to err”(最后的r不计)来记住最常用的8个字母。在密码解谜游戏cryptograms(英语:cryptograms)和单词解谜游戏如猜单词游戏、Scrabble、香蕉拼字游戏和电视游戏节目幸运轮(英语:Wheel of Fortune (U.S. game show))中,须要运用字母频率和频率分析。在古典文学中,爱伦坡早在其著名小说《金甲虫》描述了如何用英文字母频率的知识去解开故事中的替换式密码,找出船长基德埋藏宝藏的所在。

字母频率在一些键盘布局的设计上举足轻重。Blickensderfer打字机(英语:Blickensderfer typewriter#Layouts)在下排放置最常用的字母。德沃夏克键盘将最常用的字母放在最易输入的中排,即除拇指外的八指所放之处。

英语中的字母频率如下:

上面列出的表格引自Algoritmy网站。而这个列表和其他的表稍微不同,如美国康奈尔大学数学探索项目(Math Explorer's Project)在统计40000个单词后得到了大同小异的另一表 页面存档备份,存于互联网档案馆。牛津大学出版社分析简明牛津词典的词条后也得出百分比稍有不同的一表。

英语中空格出现的频率比使用最多的字母(e)还稍稍多点(约为107%),而非字母符号(如数字、标点等)统共后排名第四,即在字母“T”和“A”之间。

单词中首字母的频率如下:

*参见带点与不带点I


根据上表,英语中使用频率最高的10个字母为etaoi nshrd,而其他语言的排列顺序如下:

以上语言基本使用相似的25个(或以上)字母。而道本语的排列顺序是ainlo ektms,与以上语言不同的是道本语只使用了14个字母。

相关

  • 碘缺乏病碘缺乏病(IDD)是因缺乏摄入碘元素而造成的病态。这种病症通常出现于远离海洋的内陆地区的人口,因海产是人体摄取碘的主要来源,以及内陆地区土壤含量不足。但并不代表沿海地区就
  • 术语术语又称技术名词、科学术语、科技术语或技术术语,是在特定专业领域中一般概念的词语指称,一个术语表示一个概念。研究术语的学科有术语学。由于文化差异,不同语种间的翻译也常
  • 鲟科鲟科是鲟形目下的一个科,其下有4属、27种鱼类,其中4种可能已经灭绝。鲟鱼生活在海洋和大的河流、湖泊中,体长最大的超过9米。其化石记录可追溯到2.45至2.08亿年前的三叠纪时期
  • 文卡特拉曼·拉马克里希南文卡特拉曼·拉马克里希南(英语:Venkatraman "Venki" Ramakrishnan,1952年-),英国结构生物学家,拥有美国籍,2009年诺贝尔化学奖得主之一。2015年9月,他被选为皇家学会会长。拉马克里
  • 石川县第3区石川县第3区是日本众议院的选区,始于1994年。北海道 13 | 山形县 4 | 静冈县 9 | 岛根县 3 | 大分县 4福井县 3 | 山梨县 3 | 德岛县 3 | 高知县 3 | 佐贺县 3青森县 4 | 岩
  • 海北友松海北友松(日语:海北友松,1533年-1615年6月27日),日本画家之一,创建了海北派。日本近江(今滋贺县)坂田郡人。早年因政治斗争而入寺为僧。后致力于绘画创作,他常于模仿,自成一家,具有较强
  • 温卤面温卤面(朝鲜语 :울면)是一种韩式中国菜面食。除面条外,包括香菇、双孢蘑菇、胡萝卜等蔬菜,鸡蛋,及海参、虾、鱿鱼、乌贼等各种海鲜。它与中国菜中的打卤面相关联和借鉴,又发展出自
  • 约瑟夫·古特曼约瑟夫·古特曼(捷克语:Josef Guttmann,1902年5月23日-1958年?月?日),犹太人,是捷克斯洛伐克的政治家,捷克斯洛伐克共产党中央委员会委员,由于他尖锐批评莫斯科审判,因此被开除出党,之后
  • 董明祥董明祥(1953年9月-),安徽来安人,原中国人民解放军少将。1969年参加中国人民解放军。1998年,担任北京军区后勤部基建营房部部长。次年升任联勤部副部长,主管基建营房工作。2001年,被
  • 箬岙村箬岙村旧称“东城”,为位于中国浙江省宁波市宁海县一市镇的一个褚姓聚居村落,位于镇区南部约2公里处,三面环山,东濒三门湾。村落始建于明永乐元年(1403),最早的居民为自牛台村迁入,