齐夫定律

✍ dations ◷ 2025-12-03 23:34:30 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 德尼亚德尼亚(西班牙语:Dénia),是西班牙巴伦西亚自治区阿利坎特省的一个市镇。总面积66km2,总人口33342人(2001年),人口密度505人/km2。
  • CD8sup+/supCD8受体(英语:CD8-receptor)是细胞毒性T细胞的膜上标记(surface marker)之一。当病菌入侵人体,有一部分必定会被广布的抗原呈现细胞(此时主要指非B细胞的巨噬细胞及棘状细胞)给吞噬,
  • 鄂木斯克鄂木斯克(俄语:Омск)位于俄罗斯西伯利亚西南部,是鄂木斯克州的首府,也是西伯利亚联邦管区的第二大城市,全国第八大城市,2018年人口1,172,070人。该市距离莫斯科2,235公里。在俄
  • 离片椎类离片椎目(Temnospondyli),因为翻译的不同又称离椎螈目、离椎龙目、离椎目,是原始两栖类的重要但极度分化的分类,在石炭纪、二叠纪及三叠纪非常繁盛。当中有部分一直保持原有的生
  • 雨燕雨燕科(学名Apodidae)通称雨燕,在动物分类学上是鸟纲雨燕目中的一个科。雨燕是飞翔速度最快的鸟类,常在空中捕食昆虫,翼长而腿、脚弱小。雨燕分布广泛,有些种类在高纬度地区繁殖而
  • 浙江浙江河流列表,列举全部或部分在浙江省境内的河流,并依照流域排列;支流则由河口至源头排序。浙江东濒大海,河流源短,多独流入海,其中较大的独流入海的河流为钱塘江、瓯江、飞云江、
  • 2012年芬兰羽毛球公开赛2012年芬兰羽毛球公开赛为第15届芬兰羽毛球公开赛,属世界羽联国际挑战赛级别,亦是2011/12赛季欧洲羽联巡回赛的其中一站。本届赛事于2012年3月29日-4月1日在芬兰万塔内的 Ener
  • 藤田哲也 (气象学家)藤田哲也(英语:Tetsuya Theodore "Ted" Fujita,1920年10月23日-1998年11月19日),日裔美籍气象学家,以研究极端强烈风暴而闻名。他在芝加哥大学对雷暴、龙卷风、飓风和台风的研究彻
  • 国手战 (台湾围棋)台湾围棋有两个比赛可以被称作国手战:
  • 强震仪强震仪是一种测量强烈活动的的地震仪,简单而言就是用于测量地震的加速规。它们通常装在一个盒子里,并且已经连接到互联网上。强震仪可以用来测量一些地面运动非常强烈,而致超