齐夫定律

✍ dations ◷ 2025-11-03 11:23:20 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 风力风力可以指:
  • 卢萨蒂亚卢萨蒂亚(德语:Lausitz;上索布语:Łužyca;下索布语:Łužica;波兰语:Łużyce;捷克语:Lužice;拉丁语、英语:Lusatia)是一个位于欧洲大陆中部的地区,其地域横跨德国、波兰及捷克三国的疆
  • 省辖市市徽台北市(俗字写作台北市;台湾话: Tâi-pak-chhī;客家话: Thòi-pet-sṳ)为中华民国台湾省1945年至1967年间下辖的省辖市。1945年二次大战结束后,日治时期隶属于台北州的台北市
  • abbr class=abbr title=R21: 触摸有害R21/abbr警示性质标准词(英语:Risk Phrases,简写:R-phrases)是于《欧联指导标准67/548/EEC 附录III: 有关危险物品与其储备的特殊风险性质》里定义。该列表被集中并再出版于指导标准2001/
  • 惠来县坐标:23°1′59″N 116°17′42″E / 23.03306°N 116.29500°E / 23.03306; 116.29500惠来县(官方音译:Huilai,传统外文:Hweilai)在中国广东省东部沿海,是揭阳市下辖的一个县。全
  • .hr.hr为克罗地亚国家及地区顶级域(ccTLD)的域名。A .ac .ad .ae .af .ag .ai .al .am .ao .aq .ar .as .at .au .aw .ax .az  B .ba .bb .bd .be .bf .bg .bh .bi .bj .bm .
  • 杨延俊杨延俊(1809年-1859年),字吁尊,号菊仙,江苏金匮县(今属无锡市)人。清朝官员,官至山东肥城知县。杨延俊于道光二十四年(1844年)考中甲辰恩科举人。道光二十七年(1847年)中式丁未科张之万榜
  • 荣福直观荣福直观(拉丁语:Visio beatifica)是指在基督教神学中人对神最终的直接的自我沟通。达到荣福直观的人能从中拥有完全的救恩,如天国。直观的概念强调了救恩的知识部分,尽管它涵盖
  • 杭艾杭艾(满语:ᡥᠠᠩᡤᠠᡳ,穆麟德:),满洲人,清朝政治人物、清朝兵部尚书。曾任左都御史。康熙二十一年十月庚寅,接替折尔肯,担任清朝兵部尚书,后改户部尚书。由哈占接任。康熙年间卒。
  • 天主教圣迭戈教区天主教圣迭戈教区(拉丁语:Dioecesis Sancti Didaci;英语:Diocese of San Diego)是美国一个天主教会教区,属洛杉矶总教区。教区于1936年7月11日成立,管辖加州圣迭戈县和因皮里尔县,20