齐夫定律

✍ dations ◷ 2025-12-11 08:23:05 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 欧元符号(.mw-parser-output .jis2004font{font-family:"源ノ角ゴシック JP Normal","源ノ角ゴシック JP","Source Han Sans Normal","Source Han Sans","NotoSansJP-DemiLig
  • 毒物是对生物造成不适反应的物质的总称。毒物对生物体造成的影响因种类不同各异,不适反应的类型以及程度也各不相同。另外对于有的生物来说具有毒性而对于别的生物来说无毒的
  • 1149年重要事件及趋势重要人物
  • 耗散系统耗散系统(Dissipative system)是指远离热力学平衡状态的开放系统,此系统和外环境交换能量、物质和熵而继续维持平衡,对这种结构的研究,解释了自然界许多以前无法解释的现象。耗散
  • 藏语汉语拼音字母音译转写法少数民族语地名汉语拼音字母音译转写法-藏语(SASM/GNC/SRC romanization of Tibetan、俗称藏语拼音/Tibetan pinyin)是指中华人民共和国官方的藏语罗马字母拼写法,主要用于人名
  • 欧洲云杉欧洲云杉(学名:、Norway spruce、European spruce),或译作挪威云杉,是一种大型常绿针叶树,高达35-55米,树干直径可达 1-1.5 米。2008年,一株由瑞典于默奥大学科学家在瑞典达拉纳省境
  • 闽南语辞书闽南语辞书是一系列以闽南语为编纂对象的字典或辞典类书籍。这类书籍以中国明清的十五音音韵书为滥觞。至19世纪中后叶至20初,传教士为接触东方文明与传教需求,曾出版为数可观
  • 前岛密前岛密(日语:前島密/まえじま ひそか  */?,1835年2月4日-1919年4月27日)是日本一名政治家,由于他对创立近代日本邮政制度的贡献,又称为日本邮政制度之父,邮政和邮票的日文便是由他
  • 伏尔泰琳·克蕾伏尔泰琳·克蕾(Voltairine de Cleyre, 1866年11月17日-1912年6月20日),依据爱玛·戈尔德曼的说法,伏尔泰琳·克蕾是“美国所出现过最杰出而最具天赋的女性无政府主义者”;虽然如
  • 朝鲜鳞带石鳖朝鲜鳞带石鳖(学名:),又名锉石鳖,是石鳖目薄石鳖科鳞带石鳖属的一种。主要分布于日本、韩国、中国大陆、台湾,常栖息在潮间带、潮下带的岩石、低潮区至水深5米。身长25毫米。