齐夫定律

✍ dations ◷ 2025-01-04 14:51:42 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 气旋气旋是三维空间上的大尺度涡旋,其中心气压低、四周气压高,是一种近地面气流向内辐合,中心气流上升的天气系统。由于地球自转与科氏力(Coriolis effect)作用,使得气旋在北半球作逆
  • 迷惑龙迷惑龙属(学名:Apatosaurus)是蜥脚下目梁龙科下的一个属,生活于北美洲(尤其是美国)的侏罗纪启莫里阶到提通阶之间,约1亿5100万年前。迷惑龙脖子异常粗大,而尾巴则非常细长,它们是陆地
  • 阿米巴原虫泥生变形虫(Amoeba limicola),又称阿米巴原虫,变形虫属下的一个种。变形虫因为是由水流缓慢流到藻类较多的浅水中,池塘干枯后,变形虫留在土中。泥生变型虫为寄生虫。有些阿米巴原
  • 马术马术自1900年巴黎夏季奥运会起成为每届夏季奥运会比赛项目,但到1912年之间没有马术比赛,以后一直都有马术比赛。
  • 互补式金属氧化物半导体互补式金属氧化物半导体(英语:Complementary Metal-Oxide-Semiconductor,缩写作 CMOS;简称互补式金氧半导体),是一种集成电路的设计工艺,可以在硅质晶圆模板上制出NMOS(n-type MOSFE
  • 威瑞森通信威瑞森通信(Verizon Communications(/vəˈraɪzən/),NYSE:VZ),是美国一家主要电信公司,全球领先的宽带和电信服务提供商,道琼斯30种工业平均指数组成之一。公司总部位于纽约市,主要
  • 巴黎圣母院 (小说)《巴黎圣母院》(法語:,港译钟楼驼侠,台译钟楼怪人)是法国文学家维克多·雨果所著、于1831年1月14日出版的小说。故事的场景设定在1482年的巴黎圣母院,内容环绕一名吉卜赛少女(爱丝
  • 乌克兰希腊礼天主教伦敦圣家教区乌克兰希腊礼天主教伦敦圣家教区(乌克兰语:Єпархія Пресвятої Родини у Лондоні;罗马化:Yeparkhiya Presvyatoyi Rodyny u Londoni)是大不列颠的
  • 潘辉括潘辉括(越南语:Phan Huy Quát;1908年6月12日-1979年4月27日)是越南政治人物。潘辉括是河静省德寿府干禄县耕获总收获社人(今属河静省禄河县),维新二年(1908年)出生,父亲是阮朝刑部郎中
  • 弗拉斯·雅科夫列维奇·丘巴尔弗拉斯·雅科夫列维奇·丘巴尔(俄语:Вла́с Я́ковлевич Чуба́рь,1891年2月10日(22日)-1939年2月26日)乌克兰人,苏联党和国家领导人。1891年,生于叶卡捷琳诺斯拉