本福特定律

✍ dations ◷ 2025-05-19 05:22:57 #本福特定律

在数学中,本福特定律(英语:Benford's law)描述了真实数字数据集中首位数字的频率分布。一堆从实际生活得出的数据中,以1为首位数字的数的出现概率约为总数的三成,接近直觉得出之期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的概率就越低。它可用于检查各种数据是否有造假。但要注意使用条件:1.数据至少3000笔以上。2.不能有人为操控。

本福特定律说明在 b {displaystyle b} 进位制中,以数 n {displaystyle n} 起头的数出现的概率为:

P ( n ) = log b ( n + 1 ) log b ( n ) = log b ( n + 1 n ) , {displaystyle P(n)=log _{b}(n+1)-log _{b}(n)=log _{b}left({frac {n+1}{n}}right),}

其中 n = 1 , 2 , . . . , b 1. {displaystyle n=1,2,...,b-1.}

本福特定律不但适用于个位数字,连多位的数也可用。

在十进制首位数字的出现概率(%,小数点后一个位):

一组平均增长的数据开始时,增长得较慢,由最初的数字 a {displaystyle a} 增长到另一个数字 a + 1 {displaystyle a+1} 起首的数的时间,必然比 a + 1 {displaystyle a+1} 起首的数增长到 a + 2 {displaystyle a+2} ,需要更多时间,所以出现率就更高了。

从数数目来说,顺序从1开始数,1,2,3,...,9,从这点终结的话,所有数起首的机会似乎相同,但9之后的两位数10至19,以1起首的数又大大抛离了其他数了。而下一堆9起首的数出现之前,必然会经过一堆以2,3,4,...,8起首的数。若果这样数法有个终结点,以1起首的数的出现率一般都比9大。

另一种解释如下. 当数据跨越多个数量级时,更自然的做法是画在对数坐标中,如果这些数据在对数坐标下的分布是均匀的,那么本福特定律自然成立。即使在对数坐标下的概率密度函数不是常数,只要其变化足够缓慢,且数据跨越了多个数量级,本福特定律也会近似成立,如下图所示.

BenfordBroad

这个定律的严格证明,可以参见Hill, T. P. "A Statistical Derivation of the Significant-Digit Law." Stat. Sci. 10, 354-363, 1996.。

1972年,Hal Varian提出这个定律来用作检查支持某些公共计划的经济数据有否欺瞒之处。1992年,Mark J. Nigrini便在其博士论文"The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies."(Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992.)提出以它检查是否有伪帐。

推而广之,它能用于在会计学、金融甚至选举中出现的数据。

华盛顿邮报引用该定律声称2009年伊朗总统大选中有造假。

若所用的数据有指定数值范围;或不是以概率分布出现的数据,如正态分布的数据;这个定律则不准确。

1881年,天文学家西蒙·纽康发现对数表包含以1起首的数那首几页较其他页破烂。

1938年,物理学家弗兰克·本福特(英语:Frank Benford)再次发现这个现象,还通过了检查许多数据来证实这点。

2009年,西班牙数学家在素数中发现了一种新模式,并且惊讶于为何现在才为人发现。虽然素数一般被认为是随机分布的,但西班牙数学家发现素数数列中每个素数的首位数字有明显的分布规律,它可以被描述了素数的本福特定律。这项新发现除了提供对素数属性的新洞见之外,还能应用于欺骗检测和股票市场分析等领域。

相关

  • 整数分拆一个正整数可以写成一些正整数的和。在数论上,跟这些和式有关的问题称为整数拆分、整数剖分、整数分割、分割数或切割数(英语:Integer partition)。其中最常见的问题就是给定
  • 长隆酒店长隆酒店是中华人民共和国首家按照五星级标准建造的生态式主题酒店,位于广东省广州市番禺区迎宾路,毗邻香江野生动物世界与长隆欢乐世界。长隆酒店建筑面积超过8万平方米,于200
  • 丁柳元丁柳元(1977年4月21日-),早期艺名柳渊,中国女演员和导演,现任解放军文化艺术中心影视部-导演队副队长。兼任中国电视艺术家协会理事。2016年以海棠依旧得到解放军金星奖最佳女演员
  • 杨雪兰杨雪兰(Shirley Young,1935年5月25日-),美籍华裔企业家、社会活动家,原通用汽车全球副总裁。杨雪兰于1935年出生于上海,父亲是外交官杨光泩、母亲是严氏三姐妹之一的严幼韵。1938年
  • 佩尔·拉格奎斯特佩尔·拉格奎斯特(Pär Lagerkvist,1891年-1974年),瑞典作家,1940年获选接替维尔纳·冯·海登斯坦成为瑞典学院院士(第8席),曾以《大盗巴拉巴》获得1951年的诺贝尔文学奖。拉格奎斯特
  • 物质文明人类在社会历史发展过程中所创造的,体现社会生产力发展进步的物质成果。物质文明是一个国家综合实力的最主要的内容,现今国际通行的衡量标准有国内生产总值(GDP),国民生产总值(GN
  • 班克洛夫特奖班克洛夫特奖是颁发给美洲历史或外交书籍的奖项。奖项是1948年应美国历史学会会员弗雷德里克·班克罗夫特(英语:Frederic Bancroft)的要求而成立,每年由哥伦比亚大学的理事颁发
  • 赫尔曼–莫甘记号在几何学中, 赫尔曼–莫甘记号(Hermann–Mauguin notation)是一套用于标记点群,平面群(英语:Wallpaper group)和空间群中的对称要素的表示法,得名于德国晶体学家赫尔曼·卡尔(于1928
  • 三翼战斗机索普威思三翼战斗机(Sopwith Triplane)是索普威思飞机公司应英国海军部的要求而在小狗式战斗机的基础上发展而来,其名字也祇是简单地直呼为三翼机,使用者祇有英国皇家海军航空队而无英国皇家陆军航空队,三翼机由于种种原因,虽曾一度光辉但很短暂地退出战场。三翼战斗机采用了小狗式战斗机的机身,再加上三对翼展相同的机翼,同时把发动机马力由小狗式的80匹增强至130匹,这样得到更好的空中格斗能力和爬升能力,而由于发动机马力也跟着增加,三翼战斗机的速度并未因此而减慢,相反还比敌机要快。1916年5月28日,索
  • 萨逊的大卫萨逊的大卫 (亚美尼亚语:Սասունցի Դավիթ ),亚美尼亚民族史诗(英语:National epic)《萨逊勇士(英语:Daredevils of Sassoun)》中的主要英雄,他将阿拉伯入侵者赶出了亚美尼亚。《萨逊勇士》也被称为“萨逊的大卫”,这部亚美尼亚民族史诗详细叙述了萨逊的大卫的事迹。作为口述历史,它可以追溯到8世纪,1873年首次由加列金·斯尔万德兹佳恩(英语:Garegin Srvandztiants)在君士坦丁堡以亚美尼亚文整理结集出版。“萨逊的大卫”只是史诗四章中的一章,但由于