齐夫定律

✍ dations ◷ 2025-11-29 03:40:20 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 金属蛋白金属蛋白(英语:Metalloprotein)是一类含有配位结合的金属离子作为辅因子的结合蛋白质。所有蛋白质中有大量是属于这一类。据估计,所有蛋白质中有大约一半含有金属。据另一个估计
  • 甘油三酯甘油三酯(triglyceride, TG, triacylglycerol, TAG, or triacylglyceride),亦作三酸甘油酯,常称为油脂,为动物性油脂与植物性油脂的主要成分,一种由一个甘油分子和三个脂肪酸分子
  • 坪(中文:ㄆㄧㄥˊ/píng、日语:坪/tsubo、韩语:평/pyeong),源于日本传统计量系统尺贯法的面积单位,主要用于计算房屋、建筑用地之面积,主要应用于日本、台湾和朝鲜半岛。在明治时期
  • WMAP威尔金森微波各向异性探测器(英语:Wilkinson Microwave Anisotropy Probe,简称WMAP)是美国宇航局的人造卫星,目的是探测宇宙中大爆炸后残留的辐射热,2001年6月30日,WMAP搭载德尔塔I
  • 罪恶宗教上的罪是指一种违反道德规范的行为或者实施了这种行为的状态。通常这种行为准则由一个神(如亚伯拉罕诸教中的天主;上帝、神;真主)来裁定。罪经常用于指称一种被禁止或不被认
  • 国会山庄 (加拿大)National Capital Commission国会山庄(英语:Parliament Hill;法语:Colline du Parlement)位于加拿大安大略省渥太华市中心,坐落渥太华河南岸的官地,为加拿大国会建筑群所在。国会建
  • 巴伦西亚共同体联合左翼巴伦西亚共同体联合左翼(加泰罗尼亚语:Esquerra Unida del País Valencià;西班牙语:Izquierda Unida del País Valenciano)是西班牙左翼政党联盟联合左翼在巴伦西亚共同体的分
  • 台风科拉 (1966年) 9月4日的台风科拉台风科拉(英语:Typhoon Cora,国际编号:196617,日本编号:196618,台湾编号:196617
  • Α-环糊精α-环糊精是由六个葡萄糖分子构成的环状分子,为可溶于水的低毒白色固体。它的准圆柱内部可以结合并释放其它分子,可以用于医药。这个化合物也因其可以形成包合物的主客体性质
  • 威海港威海港是中国山东省的港口之一,位于山东半岛东北部黄海沿岸。威海港由六个港区构成,分别是威海湾港区、龙眼湾港区、蜊江港区、石岛港区、靖海湾港区、乳山头港区。其中威海湾