本福特定律

✍ dations ◷ 2025-09-15 09:32:26 #本福特定律

在数学中,本福特定律(英语:Benford's law)描述了真实数字数据集中首位数字的频率分布。一堆从实际生活得出的数据中,以1为首位数字的数的出现概率约为总数的三成,接近直觉得出之期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的概率就越低。它可用于检查各种数据是否有造假。但要注意使用条件:1.数据至少3000笔以上。2.不能有人为操控。

本福特定律说明在 b {displaystyle b} 进位制中,以数 n {displaystyle n} 起头的数出现的概率为:

P ( n ) = log b ( n + 1 ) log b ( n ) = log b ( n + 1 n ) , {displaystyle P(n)=log _{b}(n+1)-log _{b}(n)=log _{b}left({frac {n+1}{n}}right),}

其中 n = 1 , 2 , . . . , b 1. {displaystyle n=1,2,...,b-1.}

本福特定律不但适用于个位数字,连多位的数也可用。

在十进制首位数字的出现概率(%,小数点后一个位):

一组平均增长的数据开始时,增长得较慢,由最初的数字 a {displaystyle a} 增长到另一个数字 a + 1 {displaystyle a+1} 起首的数的时间,必然比 a + 1 {displaystyle a+1} 起首的数增长到 a + 2 {displaystyle a+2} ,需要更多时间,所以出现率就更高了。

从数数目来说,顺序从1开始数,1,2,3,...,9,从这点终结的话,所有数起首的机会似乎相同,但9之后的两位数10至19,以1起首的数又大大抛离了其他数了。而下一堆9起首的数出现之前,必然会经过一堆以2,3,4,...,8起首的数。若果这样数法有个终结点,以1起首的数的出现率一般都比9大。

另一种解释如下. 当数据跨越多个数量级时,更自然的做法是画在对数坐标中,如果这些数据在对数坐标下的分布是均匀的,那么本福特定律自然成立。即使在对数坐标下的概率密度函数不是常数,只要其变化足够缓慢,且数据跨越了多个数量级,本福特定律也会近似成立,如下图所示.

BenfordBroad

这个定律的严格证明,可以参见Hill, T. P. "A Statistical Derivation of the Significant-Digit Law." Stat. Sci. 10, 354-363, 1996.。

1972年,Hal Varian提出这个定律来用作检查支持某些公共计划的经济数据有否欺瞒之处。1992年,Mark J. Nigrini便在其博士论文"The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies."(Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992.)提出以它检查是否有伪帐。

推而广之,它能用于在会计学、金融甚至选举中出现的数据。

华盛顿邮报引用该定律声称2009年伊朗总统大选中有造假。

若所用的数据有指定数值范围;或不是以概率分布出现的数据,如正态分布的数据;这个定律则不准确。

1881年,天文学家西蒙·纽康发现对数表包含以1起首的数那首几页较其他页破烂。

1938年,物理学家弗兰克·本福特(英语:Frank Benford)再次发现这个现象,还通过了检查许多数据来证实这点。

2009年,西班牙数学家在素数中发现了一种新模式,并且惊讶于为何现在才为人发现。虽然素数一般被认为是随机分布的,但西班牙数学家发现素数数列中每个素数的首位数字有明显的分布规律,它可以被描述了素数的本福特定律。这项新发现除了提供对素数属性的新洞见之外,还能应用于欺骗检测和股票市场分析等领域。

相关

  • 锯齿缘睫状体是眼球壁葡萄膜的中部环形增厚部分,宽约6毫米,通过晶状体悬韧带与晶状体相连。内表面有许多突出并呈放射状排列的皱褶,外表面有睫状肌(平滑肌),在睫状肌和晶状体之间有透
  • 蔡 旭蔡旭(1911年5月12日-1985年12月15日),江苏武进人,农学家,中国科学院院士,中国小麦杂交育种的开拓者。蔡旭于1934年毕业于国立中央大学农学院农艺系。后留校任教,在农学家金善宝指导
  • 绽放花朵的飞行兵器《绽放花朵的飞行兵器》(日语:花咲けるエリアルフォース),为杉井光撰写,LLO绘制封面与插画的一部轻小说作品,日文文库本于2011年2月由GAGAGA文库(小学馆所属)出版,繁体中文版由台湾尖
  • 赵治勋赵治勋(日语:ちょうちくん、韩语조치훈,1956年6月20日-)是一位著名韩国旅日围棋棋手,也是日本史上首位获得大满贯(七大头衔均获得过)的棋手。籍贯为韩国釜山,目前隶属于日本棋院。
  • 格尔斯滕哈伯代数格尔斯滕哈伯代数是Gerstenhaber在研究结合代数的形变时发现的。一个结合代数的形变跟它的Hochschild上复形有密切的关系,Gerstenhaber证明,Hochschild上复形实际上形成一个微
  • 2011年西安灞桥山体滑坡事故2011年西安灞桥山体滑坡事故是指2011年9月17日开始,发生于中国陕西省西安市灞桥区因持续降雨引发的山体滑坡地质灾害。9月4日以来,持续降雨致使陕西部分地区遭受水灾,同时诱发
  • 1980年美国职棒大联盟球季1980年美国职棒大联盟球季是美国联盟和国家联盟共同存在后的第80个赛季。该年的世界大赛由费城人4胜2败击败皇家拿下世界大赛冠军。这是费城人队史首冠,他们也成为最晚拿下冠军的大联盟创始球队。 1980年全明星赛于7月8日在洛杉矶道奇的主场道奇体育场举行。
  • 丹尼尔·艾利斯丹尼尔·艾利斯(英语:Daniel Alessi,1997年8月26日-),是一名澳洲职业足球员,司职后卫,现效力澳职球会西悉尼流浪者。2013年16岁加入西流青年军,2014年与球会签职业合约,直至2015/16球季完结才会到期。
  • 庄子试妻庄子试妻或庄子戏妻,是由庄周(庄子)梦蝶、鼓盆而歌而衍生出的故事。元代史敬先(史九)杂剧《老庄周一枕蝴蝶梦》是最早有记载的关于庄周梦蝶题材的戏曲作品。在晚明之前,许多说书故事情节已由庄周梦蝶转化为庄子试妻,通常是:“庄子本来是一只蝴蝶,因听闻老子讲道而转世为人,娶妻之后,感悟人世无常,出家修道,成为神仙。”明末冯梦龙小说《警世通言》第二卷《庄子休鼓盆成大道》和谢弘仪著传奇昆剧剧本《蝴蝶梦》是最早的两个故事完本。冯梦龙和谢弘仪的故事情节,人物设定大体相同。此后,各类戏曲均对这一故事有所演绎。剧目命名略有不同
  • 弯曲造山带弯曲造山带 (英语:Orocline)是指造山带形成后被弯曲的山脉。此词由 S. Warren Carey 于 1955 年提出,阐述各种造山带的复杂形状可由弯曲来解释Carey, S. Warren (1955)。Carey 举出十几个弯曲造山带的例子。弯曲被回返后,结果与通过其他方式推断的大陆重建基本相同。这对后来的板块构造理论提供了强有力的支持。弯曲造山带(oroclines)的形成原先归因于平行原造山带的压缩,但被阻扰在一个垂直轴,导致弯曲围绕。但这解说,因为岩石圈具有水平分层。与后期模拟研究不符