齐夫定律

✍ dations ◷ 2025-11-27 11:59:20 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 巴西卢佐岛巴西卢佐岛(Basiluzzo)是意大利西西里岛北侧的火山岛岛链伊奥利亚群岛中面积最小的一个岛,面积只有1 km²。位置介于帕纳雷阿岛和斯特龙博利岛之间。其古代名称为"Hycesia"。坐
  • 性别决定系统性别决定系统(英语:Sex-determination system),是一个生物系统,决定了生物性特征的发展。大部分生物都有两个性别(如木瓜有雄株、雌株和雌雄同株三种性别),一些比较原始的生物可以有
  • 菲力菲力(英文:fillet;法文:filet),又称柳,指的是一块(片)无骨的,相对其它部位较嫩的肉。菲力可以是禽畜的肉(例如猪柳、鸡柳),也可以是鱼肉(即鱼柳)。若无特别说明肉的类型,则通常表示牛里脊肉(b
  • 心包积血心包积血是指心脏旁心包膜腔中积有血液 ,在临床上类似心包积液,视其体积大小与恶化速度,可能引起心包填塞 。 心包积血的常见症状包括呼吸困难,异常快速呼吸和疲倦,但这每个征象
  • 台湾购物中心列表这是一个台湾各大购物中心的列表资料:
  • 英国电影学院奖最佳影片英国电影学院奖最佳影片(BAFTA Award for Best Film)包括最佳影片、最佳外语片和最佳英国电影三个类别。1968年开始实行最佳影片和最佳英国电影两类,1985年又增设了和最佳外语
  • 喀布尔抓饭喀布尔抓饭(Kabuli palaw、波斯语:کابلی پلو‎),是一种流行于亚洲各国的抓饭,在阿富汗、伊朗、乌兹别克和塔吉克皆广受欢迎。喀布尔抓饭通常以蒸米饭加上葡萄干、胡萝卜
  • auto (C++)auto是C++程序设计语言的关键字。自C++11以来,auto关键字用于两种情况:声明变量时根据初始化表达式自动推断该变量的类型、声明函数时函数返回值的占位符。C++98标准中auto关
  • 卡尔·明兴格尔卡尔·明兴格尔(德语:Karl Münchinger,1915年5月29日-1990年3月13日),生卒于斯图加特,德国指挥家。明兴格尔在年轻的时候学习过小提琴,后来在斯图加特音乐高校卡尔·里昂哈特门下学
  • 自我图式自我图式(self-schema)是指一个长期及稳定的记忆,内容是有关在特定行为领域下的信念、经验及对自我的总括。一个人的自我图式可能包括身体特征,个性特征和兴趣,只要这个人认为这