齐夫定律

✍ dations ◷ 2025-12-04 11:41:13 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 始祖地猿地猿(Ardipithecus)是人科中非常早期的一属,生存在440万年前的上新世早期。由于它与非洲的类人猿有很多相似的地方,故它被认为是属于黑猩猩分支而非人类分支。但因其牙齿像南方
  • ZrOsub2/sub二氧化锆(化学式:ZrO2)是锆的主要氧化物,通常状况下为白色无臭无味晶体,难溶于水、盐酸和稀硫酸。一般常含有少量的二氧化铪。化学性质不活泼,但高熔点、高电阻率、高折射率和低热
  • 黄道婆黄道婆(1245年-1330年),又称黄婆、黄母,松江府华亭县乌泥泾(今上海市徐汇区华泾镇)人,生活在宋末元初,中国古代的女性棉纺织家、技术改革家。生于南宋淳祐五年,由于家庭贫苦,十多岁时被
  • 苏禄苏禄群岛(Sulu Archipelago),菲律宾西南部岛群。自民答那峨三宝颜半岛向西延伸至加里曼丹岛东岸,与马来西亚沙巴州相望,有800个以上小岛组成,分为五个岛群,面积2823平方公里,大岛都
  • 帕赛市帕赛市(Pasay City),又译巴西市,是菲律宾首都马尼拉里的一个城市。帕赛位于马尼拉的西南方位置,是大马尼拉的一部分,在美国殖民时代就已经发展成为城市。截至2015年,人口有416,522
  • 胜利花园胜利花园(英语:Victory gardens,war gardens,food gardens for defense)是战争期间在私人住宅院落和公园开辟的蔬菜种植地,一战和二战期间美国、英国、加拿大和德国都推行过该运动
  • 汗衫汗衫(Undershirt)是内衣的一种,是一种穿着在内的衣裳。汗衫的主要作用就是吸收人体散发的汗水和气味,或者是保护身体不受他人或其他不适衣物(例如某些强制性工作制服)的磨损。它分
  • Promises《Promises》是苏格兰音乐制作人卡尔文·哈里斯和英国创作歌手山姆·史密斯的歌曲。两位艺人携手加拿大歌手兼词曲作者杰西·雷耶兹(英语:Jessie Reyez)共同完成了本歌曲的创作
  • 小孩很忙小孩很忙,为纬来综合台打造的亲子益智竞赛节目,由曾国城与当红童星小小彬联合主持。首集于2010年5月4日播出,播出时间为周一至周五晚间六点至七点,节目类型为邀请艺人亲子与民众
  • 慧解脱慧解脱,佛教术语,阿罗汉有两种:慧解脱及俱解脱,同样都是透过佛法中解脱道的修行得证生死解脱的阿罗汉果证,皆可证有余涅槃界、舍报后入无余涅槃界,不受后有。 所不同的是,慧解脱的