齐夫定律

✍ dations ◷ 2025-11-10 11:35:30 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 嗜中性白血球中性粒细胞(英语:Neutrophil 或 Neutrocyte,或全称 Neutrophilic Granulocyte)亦称嗜中性粒细胞或嗜中性多核球,是血液白细胞的一种,也是哺乳动物血液中最主要的一种白细胞。中性
  • 礁溪温泉坐标:24°49′47″N 121°46′24″E / 24.829666°N 121.773201°E / 24.829666; 121.773201礁溪温泉位于台湾兰阳平原上的宜兰县礁溪乡德阳村,主要分布温泉沟溪谷中。分类上
  • 豚鼠属豚鼠属(学名:Cavia)是啮齿目豚鼠科的一属,原产于南美洲,现有很多种类作为宠物被引入到世界各地。本属包括以下几种:
  • 沟口健二沟口 健二(1898年5月16日-1956年8月24日)是一位日本电影史上最重要的导演和编剧,出生于东京。沟口健二的长镜头及场面调度闻名于世,他那如卷开轴画的全景长镜头美学,以及“一场一
  • 印 青印青(1954年5月-),中华人民共和国作曲家,一级作曲。任职于中国人民解放军总政治部歌舞团,中国音乐家协会成员。
  • 各国森林面积列表本表旨在列出整个地球、大洲、地区、国家、省、州和地区的森林面积及相关数据,森林覆盖率的主要来源为美国中央情报局的世界概况。(km2)(km2)(km2)
  • 圆桌骑士圆桌骑士(英语:Knights of the Round Table),或译成圆桌武士,是中世纪大不列颠素材(英语:Matter of Britain)中亚瑟王朝廷内最高等的骑士,首先出现在诺曼诗人魏斯1155年所写的《不列
  • 旧亨特住宅旧亨特住宅(日语:旧ハンター住宅)是一座位于兵库县神户市滩区王子动物园内的异人馆。修建于约1889年时。1966年6月11日,旧亨特住宅被指定为日本的重要文化财产。旧亨特住宅是现
  • 大花蚤科大花蚤科(Ripiphoridae,早前拼法 Rhipiphoridae 为误拼)是鞘翅目下的一科,英文俗名为“wedge-shaped beetles”,指称其体态为楔形。大花蚤科是鞘翅目里特别的成员,他们通常是过变
  • 因为爱 (电影)《因为爱》(韩语:사랑하기 때문에;英语:)(又译灵魂出窍我爱你)是2017年1月4日上映的一部韩国剧情片,讲述以特别的方法,将不懂如何去爱的两个人的心贴在一起的故事。