齐夫定律

✍ dations ◷ 2025-12-10 18:44:08 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 神经衰弱神经衰弱是一个在20世纪初受当时的西方医学影响而传入中国的术语,用以表示人体神经实际上的机械性衰弱。其英语“Neurasthenia”在早至1829年就有使用,且它不是后来的神经病学
  • 心电图判读心电图(Electrocardiography、ECG 或者 EKG)是一种经胸腔的以时间为单位记录心脏的电生理活动,并通过皮肤上的电极捕捉并记录下来的诊疗技术。这是一种无创性的记录方式。Elect
  • 污名化社会羞辱(英语:Social stigma)又称为社会耻辱、社会羞耻或社会污名,是指在社会关系中基于个体特征而对某人的否定、不认同或不满。这些状况时常包括:不公正的待遇、疏远或排挤,并
  • 杉木杉木(学名:Cunninghamia lanceolata)又称福州杉、刺杉,为柏科杉木属植物。原产于中国及越南,并有一变种峦大杉,分布在台湾,模式标本采自浙江舟山。常绿乔木,高可达30米以上;树冠常呈
  • 坪地坪地街道是中国广东省深圳市东北的一个街道,属深圳龙岗区管辖,北邻广东惠州市惠阳区、深惠公路及深惠高速公路横渡。
  • 托兰县托兰县(英语:Tolland County)是位于美国康涅狄格州北部的一个县,根据美国人口调查局2000年统计,共有人口136,364,其中白人占92.34%、非裔美国人占2.72%、亚裔美国人占2.27%。与本
  • 双峰话双峰话属汉语族湘语娄邵片,是老湘语的代表方言 。双峰话在湖南中部娄底市双峰县一带通行。双峰话保留了古楚语的大部分特征,受到其他汉语方言的影响非常小,因此对于其他人来说,
  • 凯尔采反犹骚乱凯尔采反犹骚乱是1946年7月4日在波兰凯尔采爆发的针对犹太人的暴力事件。波兰军人、警官和平民对犹太人社区中心集聚的难民采取了暴力行动;42名犹太人在事件中遇难,超过40人受
  • IEEE-488IEEE-488 是一种由惠普公司(现为安捷伦科技及是德科技)在1960年代开发的HP-IB(,惠普接口总线)短程通信总线规范。随后成为了标准,并通称为GP-IB(,通用接口总线)。在一个GPIB标准接口
  • X-4试验机诺斯罗普公司生产的X-4是一架小型双涡轮引擎飞机。这架飞机没有水平尾翼,控制倾斜和横滚的是升降舵与副翼的组合(这叫升降舵辅助翼)。一些空气动力学的研究人员希望通过去掉水