齐夫定律

✍ dations ◷ 2025-12-02 11:38:47 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 维埃纳省维埃纳省(法文:Vienne)是法国阿基坦-利木森-普瓦图-夏朗特大区所辖的省份,普瓦图最东端土地。该省编号为86。5个海外省及大区
  • 亲人关系亲属(kinship),又称亲人、家人或家属,是指具有同一个系谱起源的实体(人、天神或其他动物)之间的关系,无论这个系谱起源是透过生物、文化或历史的继嗣关系。在人类学,亲属体系同时包
  • 质能方程E = mc²(即质能等价,亦称为质能转换公式、质能方程)是一种阐述能量(E)与质量(m)间相互关系的理论物理学公式,公式中的 c 是物理学中代表光速的常数。该公式表明物体相对于一个参照
  • 阁僚政治主题国务大臣(日语:国務大臣/こくむだいじん kokumudaijin ?)是日本内阁成员的正式称呼,简称“大臣”,一般也称之为“阁僚”或“阁员”,相当于共和制内阁的部长,如外务大臣、
  • 恋水癖恋水癖(英语:Aquaphilia)是一种恋物癖形式,指人对水中或水下性行为感到特别的偏好,或是想像人在游泳与水下的姿态。美国佛罗里达州棕榈滩郡有一名自认是美人鱼的恋水癖少女,她认为
  • 碲化钠碲化钠是一种无机化合物,由碲和钠组成,属于氢碲酸盐,其化学式为Na2Te。碲和钠的化合反应可以制备碲化钠,由于固相反应过于剧烈,因此通常需要利用液氨作为溶剂进行反应。碲化钠结
  • LIPBUBBLELIPBUBBLE(朝鲜语:립버블 )是韩国Zenith Media Contents公司推出的五人女子组合,当时的成员有Ryua、Seoryn、Mirae、Haea、Eunbyeol、Ina及Hanbi,解散前成员有Winy、Mirae、Eunb
  • 格凡萨 (王后)格凡萨 (格鲁吉亚语:გვანცა/გუანცა, 格语罗马化:Gvantsa 或 Gwantza, Gontza, Gontsa, Gonc'a)(-约1263年)是格鲁吉亚历史上的一位王后,作为国王大卫七世(1245-1270年在位
  • 雷瓦伊·约瑟夫雷瓦伊·约瑟夫(匈牙利语:Révai József;1898年10月12日-1959年8月4日),犹太人,是匈牙利共产党中央政治局委员、中央副总书记,匈牙利国民文化和教育部长、中央主席团副主席,四人集团
  • 十六国君主诸子女列表此列表列出中国五胡十六国君主所生的子女,包括追封君主之子女。