齐夫定律

✍ dations ◷ 2025-10-06 16:09:32 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 方 成方成(1938年-),江苏江阴人,中国天文学家,南京大学教授,中国科学院院士。1959年本科毕业于南京大学,现任南京大学天文学系教授、日本国立天文台、法国巴黎天文台客座教授。曾任南京大
  • 都统都统是中国古代武官名。十六国前秦始置。清代以后常置,在武职中秩品仅次于驻防将军。中华民国在北洋政府时期则沿用之。前秦建元十九年(383年),苻坚发兵攻打东晋,置少年都统以统
  • 国家广场坐标:38°53′24″N 77°01′25″W / 38.89000°N 77.02361°W / 38.89000; -77.02361国家广场(英语:National Mall)是位于美国首都华盛顿特区的一处开放型国家公园。该广场由数
  • 中华人民共和国省级行政区地区生产总值列表本条目所列为中国大陆各省级行政区GDP总量。按照国际汇率和购买力平价将各省级行政区GDP总量数据折算为美元和国际元单位,条目以最近年份数据为主,同时收录1978年以后代表性年
  • 刘婧文1R (2017)刘婧文(Claire Liu,2000年5月25日-),出生于美国加里福尼亚洛杉矶附近的千橡市。2016年获温布尔登少年女子双打冠军,2017年法国网球公开赛少年女子亚军,温布尔登少年女子组
  • 赵宗燠赵宗燠(1904年11月28日-1989年10月10日),中国化学工程学家。四川荣昌人。1929年毕业于国立中央大学化学系,毕业后留校作研究生和助教。1932年后在四川工业训验所任主任工程师,同时
  • 阿维马埃尔·古斯曼Elena Iparraguirre(英语:Elena Iparraguirre)(1989至今)曼努埃尔·鲁本·阿维马埃尔·古斯曼·雷诺索(西班牙语:Manuel Rubén Abimael Guzmán Reynoso;1934年12月3日-),化名贡萨罗(Go
  • 佐尔福斯普林斯 (佛罗里达州)佐尔福斯普林斯(英语:Zolfo Springs),是美国佛罗里达州下属的一座城市。建立于1904年。面积约 为3.9平方公里(约合1.5平方英里)。根据2010年美国人口普查,该市有人口1,972人。论人
  • 林煇焜林煇焜(1902年─1959年),台北淡水(今新北市淡水区)人,曾任淡水信用合作社专务理事、台北市政府机要秘书,著有台湾最早的新闻连载小说《争へぬ运命》(命运难违)。林煇焜出生自淡水望族
  • 奇亚拉区 (安达韦拉斯省)坐标:13°52′19″S 73°40′12″W / 13.87194°S 73.67000°W / -13.87194; -73.67000奇亚拉区(西班牙语:Distrito de Chiara),是秘鲁的一个区,位于该国南部阿普里马克大区的安达