齐夫定律

✍ dations ◷ 2025-08-17 04:34:03 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 美墨战争美国胜利美墨战争是美国与墨西哥之间于从1846年至1848年爆发的一场战争。19世纪,美国国内流行“天定命运论”,昭昭天命成为美国19世纪时的政治标语 ,其中一层含义就是美国人是
  • 维克托·麦库西克维克托·阿尔蒙·麦库西克(英语:Victor Almon McKusick,1921年10月21日-2008年7月22日),美国内科医师、医学遗传学家,目前在美国马里兰州巴尔的摩的约翰·霍普金斯大学医学院任医学
  • 重结晶重结晶(英语:Recrystallization),再结晶,晶种结晶法,也称之为优先结晶法;是一种物理过程,在化学、冶金学和地质学中有很不同的用途。重结晶是将物质溶于溶剂或熔融后,又重新从溶液或
  • 1005年
  • 华族大量华人世居于印度尼西亚长达数个世纪。随时间演变,特别是在印度尼西亚新秩序时期的社会与政治压力迫使下,多数印尼华人已采用融入当地语言文化的姓氏拼写方式。但历史上曾有
  • 芳香味化合物芳香味化合物(英语:Aroma compound),同时也被称为气味分子,芳香,香味,或香气,是具有味道或气味的化学化合物。当一个化学化合物有足够的挥发性,就会被送至鼻子上部的嗅觉系统。代表这
  • 苏普朗足球会苏普朗足球会(FC Sopron)是一支位于匈牙利索普朗的职业足球会,球队于2008年解散。
  • 米努修米努修(Felix Marcus Minucius)是非洲人,写了一本拉丁文护教书《奥特威斯》(Octavius),内容是一位基督徒与异教徒之间的对话,论证一神的信仰及神的眷顾,并反驳当时流行的指控,并攻击
  • 裘充美裘充美,字大文,故亭,直隶省顺天府昌平州(今北京昌平)人,清朝政治人物。同进士出身。康熙十五年(1676年)登进士,授内阁中书。康熙十七年(1678年)任山西乡试副考官。康熙二十年(1681年)任广
  • ChefChef是由Ruby与Erlang写成的配置管理软件,它以一种纯Ruby的领域专用语言(DSL)保存系统配置“烹饪法(recipes)”或“食谱(cookbooks)”。Chef由Opscode公司开发,并在Apache协议版本2.