齐夫定律

✍ dations ◷ 2025-11-16 09:25:20 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 亚种亚种(subspecies)是指虽属同一物种但种内彼此占据地理分布或宿主互不重叠且生殖隔离不完善,彼此具有一定形态差异的生物类群。亚种名与种加词相同的亚种被称为指名亚种,亦称原名
  • 担子菌门担子菌门(学名:Basidiomycota)是一类高等真菌,构成双核亚界,包含2万多种,包括蘑菇、木耳等主要食用菌。更具体地说,担子菌门包括以下组:蘑菇,马勃,stinkhorns(鬼笔科),支架真菌(英语:Bracke
  • 口臭口臭指人张开口时发出的臭味,普遍视为一个表面的病征。其起因可以有很多种,大多来自口腔的问题,例如蛀牙和牙周病,亦有可能因为扁桃腺结石,或因为吃了味浓的食物(如蒜头、洋葱、肉
  • 统计图表一张图表(Chart),或又称为统计图表,代表了一张图像化的数据,并经常以所用的图像命名,例如圆饼图,是主要使用圆形符号,长条图或直方图,则主要使用长方形符号。折线图,意味着使用线条符
  • 表达谱基因表达谱是一种在分子生物学领域,借助cDNA、表达序列标签(EST)或寡核苷酸芯片来测定细胞基因表达情况(包括特定基因是否表达、表达丰度、不同组织、不同发育阶段以及不同生理
  • 莫尔加尼尿道陷窝莫尔加尼尿道陷窝(英语:Lacunae of Morgagni),也称男性尿道陷窝、尿道舟状窝(英语:lacunae urethralis, urethrae masculinae or the crypts of Morgagni),是尿道表皮黏膜上的小型陷
  • 班芙国家公园班芙国家公园(英语:Banff National Park,法语:Le Parc national Banff)建于1885年,是加拿大历史最悠久的国家公园。它坐落于落基山脉北段,距加拿大阿尔伯塔省卡尔加里以西约110-180
  • 密契·麦康诺小艾迪生·米切尔·“米奇”·麦康奈尔(英语:Addison Mitchell "Mitch" McConnell, Jr;1942年2月20日-),政治人物、美国资深参议员与参议院多数党领袖,代表肯塔基州,是任期最长的共
  • 清小舌内爆音清小舌内爆音是一种极少见的辅音,出现在一些口语中。清小舌内爆音的国际音标写作⟨ʛ̥ ⟩或⟨qʼ↓⟩。另一种专门书写此音的字母,⟨ʠ⟩,已于1993年被撤回。清小舌内爆音出
  • 王人博王人博,(1958年-),中国著名宪法学者,山东莱西人。1979年进入西南政法学院法律系学习,1983年获法学学士学位,后留校任教,在西南政法学院(后改名为西南政法大学)执教长达19年。1986年在母