齐夫定律

✍ dations ◷ 2025-12-08 18:03:31 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 东南丘陵东南丘陵,是北至长江,南至南海,西至云贵高原的大片低山和丘陵的总称。它包括安徽省、江苏省、江西省、浙江省、湖南省、福建省,广东省、广西壮族自治区的部分或全部。海拔多在20
  • 莫比尔市莫比尔(英语:Mobile,/moʊˈbiːl/,moh-BEEL,法语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Co
  • 奥林巴斯奥林巴斯株式会社(オリンパス株式会社,Olympus Corporation,东证1部:7733)是一家精于光学与成像的日本公司。产品包括显微镜、照相机、录音机、内视镜与其他医疗设备。奥林巴斯于
  • 不织布无纺布(non-woven fabric, non-woven cloth),又称不织布,是一种以针轧机械或梳理机械处理各种纤维原料,用高压形成或粘合生产的一种布状物。无纺布也分新旧技术或广义狭义。旧技
  • Dromiacea绵蟹派(Dromiacea)是短尾下目下的一个节,包含240种现存的和约300已灭绝的蟹。绵蟹派和绵蟹亚派、圆关公蟹派被认为来自同一个单系群,但是形态学研究得出了相反的结论。绵蟹派的
  • 加拿大内阁加拿大内阁(英语:Cabinet of Canada;法语:Cabinet du Canada 或 Conseil des ministres)是属于国家行政机关的委员会,成员由作为主席的加拿大总理提名,总督委任。内阁的责任为向总
  • 佛登斯列·汉德瓦萨佛登斯列‧汉德瓦萨(Friedensreich Hundertwasser,1928年12月15日-2000年2月19日),又译佛登斯列‧亨德华沙或百水先生,是一个奥地利画家、雕塑家。他几乎是奥地利20世纪末期最有名
  • 天主教宿务总教区天主教宿务耶稣至圣圣名总教区(拉丁语:Archidioecesis Sanctissimi Nomini Iesu sive Cæbuana;他加禄语:Arkidiyosesis ng Cebu;Cebuano:Arkidyosesis sa Sugbo)是罗马天主教会以
  • 台中市立光正国民中学台中市立光正国民中学,简称光正国中为台中市大里区的公立国民中学。民国83年(1994年)8月正式奉准设校,随即展开整地建校,至民国85年(1996年)7月30日完工,8月开始招生。民国99年(2010
  • 迈塞尔·尤伊伯迈塞尔·尤伊伯(爱沙尼亚语:Maicel Uibo,1992年12月27日-)是一名爱沙尼亚十项全能运动员。尤伊伯在2019年世界田径锦标赛上以8604分的个人最好成绩赢得了银牌。他于2017年和巴哈