齐夫定律

✍ dations ◷ 2025-11-14 15:53:54 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 囊性、粘液、浆液性肿瘤囊性、粘液、浆液性肿瘤(Cystic, mucinous, and serous neoplasms, CMS),是一类位于卵巢的肿瘤。一类最常见的肿瘤是囊腺瘤。
  • 马姓马姓是一个中文姓氏,为中国较为常见的姓氏之一,在《百家姓》中排第五十二位,在现今中国姓氏排行第14位。马氏的来源主要有以下几种:赵奢之后迁至右扶风茂陵后,此地便成为马氏发展
  • 安达曼和尼科巴群岛安达曼-尼科巴群岛(英语:Andaman and Nicobar Islands;孟加拉语:আন্দামান ও নিকোবর দ্বীপপুঞ্জ;泰米尔语:அந்தமான் நிக்கோபார் தீ
  • 独木舟独木舟(英语:Dugout canoe),是一种用单根树干挖成的划艇,需要借助桨驱动。独木舟的优点在于由一根树干制成,制作简单,不易有漏水,散架的风险。它可以说是人类最古老的水域交通工具之
  • 宜黄县宜黄县是中国江西省抚州市所辖的一个县。总面积为1944平方公里,2003年人口为21.1万。三国吴太平二年(公元257),析临汝建宜黄县。属临川郡。隋开皇九年(公元589),宜黄并入崇仁县。唐
  • 弗朗西斯科·哈维尔·萨恩斯·德·奥伊萨弗朗西斯科·哈维尔·萨恩斯·德·奥伊萨(西班牙语:Francisco Javier Saenz de Oiza,1918年10月12日-2000年7月18日)是西班牙纳瓦拉出身的建筑师,被誉为西班牙建筑界现代主义运动
  • 奇夸克奇夸克(Strange quark)是基本粒子的一种,裸质量为7001950000000000000♠95+5 −5 MeV/2,是第三轻的夸克,只有上夸克与下夸克比其还轻。在很多种强子里,都可以找到奇夸克,例如,K介子
  • 绿米绿米(越南语:Cốm)是一道越南甜品,味甜并附有坚果味,呈绿色。绿米的颜色不是染上去的,而是通过低温烘培未成熟的米粒,并用杵臼捣碎压平所致。绿米作为一道秋季的时令菜肴,在越南红河
  • 佐竹义理佐竹义理, 安政5年9月4日(1858年10月10日)- 大正3年(1914年)4月26日,幼名常丸,出羽秋田新田藩(岩崎藩)第九任(末任)藩主。陆奥国相马中村藩主相马充胤之三子。妻子是佐竹义尧之女。
  • OxTOxT(オクト)由歌手大石昌良与作曲家Tom-H@ck所组成的音乐团体。大石昌良(オーイシマサヨシ ) - 主唱、作词、作曲Tom-H@ck (トムハック) - 制作人、作词、作曲、编曲