齐夫定律

✍ dations ◷ 2025-11-29 22:38:58 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 软组织肉瘤肉瘤(英语:sarcoma;希腊语:σάρκωμα,sárkomma,源于sárka,意为肉、软组织,词尾~om指肿瘤)是一种恶性肿瘤,组织来源为支持组织—间胚叶组织(准确一点,来自中胚层)。与上皮组织恶性
  • 水银温度计水银温度计由玻璃制成包含水银球及水银柱的温度计。末端水银球随测量位有不同形状和大小,如口表呈细长型、肛表则为短而圆或用颜色加以区别。体温计之水银受热膨胀。水银柱升
  • C-DNAC-DNA又称C型DNA,是一种DNA双螺旋型态,目前已知C-DNA与B-DNA(自然界最常见的DNA型态)有相似的构象。会出现于含锂离子,且湿度较低的状态下。研究显示,B与C两型的DNA实际上都含有两
  • 印度报《印度报》(英语:The Hindu)是印度的一份主要英语日报,1878年创刊,初时是每周出版一次,1889年改为每日出版。《印度报》最多流通的地区是印度南部。根据2012年的“印度读者调查”(I
  • 卡烷内酯卡烷内酯(英语:Cardanolide)是一种C23甾类物质母结构(英语:Parent structure),相对分子量为 344.531。其20(22)位置脱氢的化合物为卡烯内酯(英语:Cardenolide)又称为强心甾,是许多强心
  • 高烧发烧(英语:fever),又称作发热(英语:pyrexia)或发热反应(英语:febrile response),其定义为:体温在调节时超过了平常体温。现在医界并没有一致认可的正常体温上限,文献从37.3到38.3℃都有。
  • 化学相似性化学相似性(或称为分子相似性)是指二个元素、分子或化合物在结构上的相似程度,或是在参与化学反应时效果的相似程度。若是探讨在生物上的效应及其相似程度,一般会使用化合物的生
  • 安吉利斯安赫勒斯(咱人话:红奚礼示,他加禄语:Lungsod ng Angeles;邦板牙语:Ciudad ning Angeles)是菲律宾邦板牙省的城市,是一座属于一等的高度城市化的城市。安吉利斯在邦板牙省内自治,全市
  • 施派尔的亨利施派尔的亨利(德语:Heinrich von Speyer,或 Heinrich von Worms;英语:Henry of Speyer,970年-989年或992年)是萨利安王朝成员,他是莱茵河法兰克尼亚地区(英语:Rhenish Franconia)沃尔姆
  • 奥格斯堡信条《奥格斯堡信条》,(英文:Augsburg Confession, 拉丁文:Augustan Confession 或 Confessio Augustana),是信义宗(路德教会) 主要承认的信仰教条。和宗教改革最重要的文件之一。 《奥