齐夫定律

✍ dations ◷ 2025-11-30 23:27:18 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 未开发国家最不发达国家(也称作最低度开发国家、未开发国家,英语:Least developed country,缩写:LDC、LDCs)是指那些经联合国认定的社会、经济发展水平以及人类发展指数最低的一系列国家。“
  • 爱斯基摩爱斯基摩人(Eskimos or Esquimaux)是北美洲北部的(包括美国阿拉斯加北部、加拿大和格陵兰)的因纽特人以及阿拉斯加西部和俄罗斯西伯利亚东北部的尤皮克人的总称,阿留申人与前两种
  • 本土决战本土决战是在太平洋战争时,日军所想定的战略之一,意味着在日本本土中陆上决战之意。1944年末起,日军开始制定“决号作战”,1945年夏开始具体部署:在本土集中53个师团、22个独立混
  • 中世纪文学中世纪文学是指欧洲各国中世纪时期的文学。在史学上,一般认为中世纪是指从公元450年左右罗马帝国衰亡到15世纪文艺复兴之间约1000年的时间。其思想文化上的主要特征是天主教
  • 金龙桥坐标:26°47′04″N 100°23′19″E / 26.78441°N 100.3887°E / 26.78441; 100.3887金龙桥又名梓里江桥、梓里桥,位于云南省丽江市的金沙江上,东连梓里,西接鹤庆,距丽江城约80
  • 户川昌子户川昌子(日语:戸川 昌子,1931年3月23日-2016年4月26日),是一名日本推理小说作家、歌手及政治人物。户川昌子年幼丧父丧兄,与母亲相依为命。她于东京都立千岁丘高中(日语:東京都立千
  • 航程 (航空)航程指的是飞行器从起飞到降落之间的飞行距离,军用机在携带战斗载荷的情况下能飞的最远距离,则称为战斗航程。转场距离是指飞行器在基本人员、内建油箱与外挂附油箱加满,没有运
  • 图思义觉罗图思义,爱新觉罗氏,满洲镶蓝旗人,清朝政府官员,他于1777年担任巡视台湾监察御史,该官职满汉人各一,而满人的他与孟邵为同任御史。
  • 全球地址服务全球地址服务(法语:service d'adresse mondial),缩写为sedamo,是一项基于互联网的、免费的、方便人们书写和传达国际邮递地址的服务。该服务为每一个注册的地址分配了一个由八个
  • 云田镇 (陇西县)云田镇,是中华人民共和国甘肃省定西市陇西县下辖的一个乡镇级行政单位。云田镇下辖以下地区:北站村、石家门村、杜家门村、三湾村、咀头村、二十铺村、三十铺村、神家川村、上