齐夫定律

✍ dations ◷ 2025-04-02 12:39:33 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 八大菜系菜系是指依据各地饮食风味差异对中国菜进行区分的体系,本身是当代出现的汉语新词。古代文献中所记载的中国各地饮食差异,仅有物产、食材不同。至宋代经济繁荣,带动餐饮业,方使人
  • 白昼之夜白昼之夜(法语:Nuit Blanche,又称白夜,也曾被翻译为白色夜晚)是法国首都巴黎举办的一个文化活动,开始于2002年10月,于每年10月第一个周六晚间六点至周日清晨六点举行。在白昼之夜时
  • 德国交通德国堪称世界上交通最发达的国家。德国的地理位置十分优越,是欧洲的东西和南北交通干线的相交区域,有欧洲陆上的“十字路口”之称;德国是世界上最早拥有高速公路的国家;也是世界
  • 高气压高气压是指一个气压高于周边地区的区域,是为反气旋。在北半球高气压区域内的空气作顺时针方向旋转,在南半球则逆时针方向。高气压区一般风力比较小,空气下沉。通过绝热过程下沉
  • 烟灰缸(或否认客观实在的那一个人)《烟灰缸(或否认客观实在的那一个人)》(英语:)是由埃洛·莫里斯撰写,批判哲学家汤玛斯·孔恩的书。在书中,莫里斯将孔恩称为相对主义和理想主义哲学家,将他对孔恩的观点与他自己借由
  • 格南登福格南登福(英语:Gardner Denver) 是一家美国机械制造公司。1859年成立于美国,1943年在纽约证券交易所上市。1979年被Cooper Industries收购,1994年又剥离出来成为一家独立公司。
  • 朱朱 (宗教)朱朱,在法语解东西或物件,是一种西非巫术信仰系统,包括诸如护身符和咒语。这个词已被应用于传统的西非宗教。朱朱一词及其相关做法,通过大西洋奴隶贸易从西非来到美洲。在一些地
  • 百战小旅鼠《百战小旅鼠》(,又译《旅鼠总动员》、《疯狂小旅鼠》)是一个通过鼠标使用道具指引限定数目的旅鼠到达目的地的游戏,由 DMA Design(今rockstar north)开发,第一作最初1991年2月14日
  • 拟苇科参见正文拟苇科也叫假芦苇科,只有1属—拟苇属()共两种,分布在从马来西亚西部至萨摩亚、夏威夷一带的太平洋岛屿上。本科植物我为多年生高大草本,类似芦苇,可达5米高,叶大,长达1米;果
  • 二叉树在计算机科学中,二叉树(英语:Binary tree)是每个节点最多只有两个分支(即不存在分支度大于2的节点)的树结构。通常分支被称作“左子树”或“右子树”。二叉树的分支具有左右次序,不