在数学中,本福特定律(英语:Benford's law)描述了真实数字数据集中首位数字的频率分布。一堆从实际生活得出的数据中,以1为首位数字的数的出现概率约为总数的三成,接近直觉得出之期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的概率就越低。它可用于检查各种数据是否有造假。但要注意使用条件:1.数据至少3000笔以上。2.不能有人为操控。
本福特定律说明在
进位制中,以数 起头的数出现的概率为:其中
本福特定律不但适用于个位数字,连多位的数也可用。
在十进制首位数字的出现概率(%,小数点后一个位):
一组平均增长的数据开始时,增长得较慢,由最初的数字
增长到另一个数字 起首的数的时间,必然比 起首的数增长到 ,需要更多时间,所以出现率就更高了。从数数目来说,顺序从1开始数,1,2,3,...,9,从这点终结的话,所有数起首的机会似乎相同,但9之后的两位数10至19,以1起首的数又大大抛离了其他数了。而下一堆9起首的数出现之前,必然会经过一堆以2,3,4,...,8起首的数。若果这样数法有个终结点,以1起首的数的出现率一般都比9大。
另一种解释如下. 当数据跨越多个数量级时,更自然的做法是画在对数坐标中,如果这些数据在对数坐标下的分布是均匀的,那么本福特定律自然成立。即使在对数坐标下的概率密度函数不是常数,只要其变化足够缓慢,且数据跨越了多个数量级,本福特定律也会近似成立,如下图所示.
这个定律的严格证明,可以参见Hill, T. P. "A Statistical Derivation of the Significant-Digit Law." Stat. Sci. 10, 354-363, 1996.。
1972年,Hal Varian提出这个定律来用作检查支持某些公共计划的经济数据有否欺瞒之处。1992年,Mark J. Nigrini便在其博士论文"The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies."(Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992.)提出以它检查是否有伪帐。
推而广之,它能用于在会计学、金融甚至选举中出现的数据。
华盛顿邮报引用该定律声称2009年伊朗总统大选中有造假。
若所用的数据有指定数值范围;或不是以概率分布出现的数据,如正态分布的数据;这个定律则不准确。
1881年,天文学家西蒙·纽康发现对数表包含以1起首的数那首几页较其他页破烂。
1938年,物理学家弗兰克·本福特(英语:Frank Benford)再次发现这个现象,还通过了检查许多数据来证实这点。
2009年,西班牙数学家在素数中发现了一种新模式,并且惊讶于为何现在才为人发现。虽然素数一般被认为是随机分布的,但西班牙数学家发现素数数列中每个素数的首位数字有明显的分布规律,它可以被描述了素数的本福特定律。这项新发现除了提供对素数属性的新洞见之外,还能应用于欺骗检测和股票市场分析等领域。