齐夫定律

✍ dations ◷ 2025-12-09 18:44:12 #离散分布,计算语言学,幂定律,统计学定律,实证定律,概率分布尾,计量语言学,书目计量学,经验定律

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

最简单的齐夫定律的例子是“1/ function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在布朗语料库(英语:Brown Corpus)中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

主要:

次要:

相关

  • 药物英文名称列表Closten cream(目录)(目录)(目录)(目录)(目录)Fexofenadine(目录)(目录)(目录)(目录)(目录)Lysozyme(目录)Medicon-A(目录)(目录)Napthylethylenediamine(目录)(目录)(目录)
  • 调控序列调控序列(英语:Regulatory sequence,又译调节序列)是生物体内可以促进或抑制基因表达的核酸片段。调控序列可以是DNA中一段包含启动子、增强子、沉默子,以及一些调节蛋白(如转录因
  • 韩圆韩圆(원,英语:won)亦称韩元、韩圜、韩国圆。是大韩民国的通货单位,由韩国央行韩国银行发行。国际标准化组织ISO 4217订定其标准代号为KRW。1韩元相当于100钱,但钱已经不再于日常生
  • 斯坦利港斯坦利(英语:Stanley),旧称斯坦利港(Port Stanley),阿根廷称阿根廷港(西班牙语:Puerto Argentino)是福克兰群岛的唯一城市和首府。斯坦利港位于东福克兰岛(阿根廷称索莱达岛)一个北向的
  • 梅诺卡岛梅诺卡岛(西班牙语:Menorca)是地中海西部一岛屿,属西班牙巴利阿里群岛的第二大岛。位于马略卡岛东北,面积约700平方公里。人口约九万(2010年)。全岛长约50公里,宽约15公里,地势平坦,为
  • 制动制动是指一种令交通工具从前进中停止下来的制动系统,透过使车辆车轮的转动减慢来停车。一般来说,都是透过以生铁或复合陶瓷(材料有:碳、二氧化硅或Kevlar纤维等)制成的制动碟,连接
  • 2014年亚洲运动会羽毛球女子团体比赛2014年亚洲运动会羽毛球比赛为第十七届亚洲运动会的其中一项竞赛项目,共产生七面金牌;赛事将于2014年9月20日至9月29日在桂阳体育馆举行。本条目为女子团体项目的比赛结果。本
  • 2019年中央广播电视总台六一晚会2019年中国中央电视台六一晚会(简称2019年六一晚会)是中央广播电视总台于2019年六一儿童节举办的少儿文艺晚会,该晚会的主题为“快乐向未来”,由许蓓蓓执导。首播:重播:央视网、爱
  • 大猴面包树大猴面包树(学名:),是马达加斯加六种猴面包树属植物中最大者,它原产于此岛,现由于农地扩张而受到威胁。马达加斯加的旅游胜地猴面包树大道就是由大猴面包树林构成的。其种加词来自
  • 卡辛奶酪卡辛奶酪( 西班牙语:queso Casin)是在阿斯图里亚斯公国制造的西班牙传统奶酪。 其名称受欧盟农产品地理标示和传统特产标识原产地命名保护 (PDO)。 该种奶酪由特定品种的全脂,未经