贝叶斯定理

✍ dations ◷ 2025-06-08 05:54:17 #贝氏定理

贝叶斯定理(英语:Bayes' theorem)是几率论中的一个定理,描述在已知一些条件下,某事件的发生几率。比如,如果已知某癌症与寿命有关,使用贝叶斯定理则可以透过得知某人年龄,来更加准确地计算出他罹患癌症的几率。

通常,事件A在事件B已发生的条件下发生的几率,与事件B在事件A已发生的条件下发生的几率是不一样的。然而,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途,即透过已知的三个几率而推出第四个几率。贝叶斯定理跟随机变量的条件几率以及边缘几率分布有关。

作为一个普遍的原理,贝叶斯定理对于所有几率的解释是有效的。这一定理的主要应用为贝叶斯推断,是推论统计学中的一种推断法。这一定理名称来自于托马斯.貝葉斯。

贝叶斯定理是关于随机事件A和B的条件概率的一则定理。

P ( A B ) = P ( B A ) P ( A ) P ( B ) {\displaystyle P(A\mid B)={\frac {P(B\mid A)P(A)}{P(B)}}} 发生的条件下事件发生的概率是:

其中 与的联合概率表示为 P ( A B ) {\displaystyle P(A\cap B)} 发生的条件下事件发生的概率

整理与合并这两个方程式,我们可以得到

这个引理有时称作概率乘法规则。上式两边同除以P(),若P()是非零的,我们可以得到贝叶斯定理:

贝叶斯定理通常可以再写成下面的形式:

其中是A的补集(即非A)。故上式亦可写成:

在更一般化的情况,假设{}是事件集合里的部分集合,对于任意的,贝叶斯定理可用下式表示:

贝叶斯定理亦可由相似率Λ和可能性表示:

其中

定义为B发生时,A发生的可能性(odds);

则是A发生的可能性。相似率(Likelihood ratio)则定义为:

贝叶斯定理亦可用于连续几率分布。由于概率密度函数严格上并非几率,由几率密度函数导出贝叶斯定理观念上较为困难(详细推导参阅)。贝叶斯定理与几率密度的关系是由求极限的方式建立:

全几率定理则有类似的论述:

如同离散的情况,公式中的每项均有名称。(, )是和的联合分布;(|)是给定=后,的后验分布;(|)= (|)是=后,的相似度函数(为的函数);()和()则是和的边际分布;()则是的先验分布。为了方便起见,这里的在这些专有名词中代表不同的函数(可以由引数的不同判断之)。

对于变数有二个以上的情况,贝叶斯定理亦成立。例如:

这个式子可以由套用多次二个变数的贝式定理及条件几率的定义导出:

一般化的方法则是利用联合几率去分解待求的条件几率,并对不加以探讨的变数积分(意即对欲探讨的变数计算边缘几率)。取决于不同的分解形式,可以证明某些积分必为1,因此分解形式可被简化。利用这个性质,贝叶斯定理的计算量可能可以大幅下降。贝氏网络为此方法的一个例子,贝氏网络指定数个变数的联合几率分布的分解型式,该几率分布满足下述条件:当其他变数的条件几率给定时,该变数的条件几率为一简单型式。

下面展示贝叶斯定理在检测吸毒者时的应用。假设一个常规的检测结果的灵敏度和特异度均为99%,即吸毒者每次检测呈阳性(+)的概率为99%。而不吸毒者每次检测呈阴性(-)的概率为99%。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理却可以揭示一个潜在的问题。假设某公司对全体雇员进行吸毒检测,已知0.5%的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?

令“D”为雇员吸毒事件,“N”为雇员不吸毒事件,“+”为检测呈阳性事件。可得

根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率P(D|+):

尽管吸毒检测的准确率高达99%,但贝叶斯定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约33%,不吸毒的可能性比较大。假阳性高,则检测的结果不可靠。这是因为该公司不吸毒的人数远远大于吸毒人数,所以即使不吸毒者被误检为阳性的概率仅为1%,其实际被误检人数还是很庞大。举例来说,若该公司总共有1000人(其中5人吸毒,995人不吸),不吸毒的人被检测出阳性的人数有大约10人(1% x 995),而吸毒被验出阳性的人数有5人(99% x 5),总共15人被验出阳性(10 + 5)。在这15人里面,只有约33%的人是真正有吸毒。所以贝叶斯定理可以揭露出此检测在这个案例中的不可靠。

同时,也因为不可靠的主因是不吸毒却被误检阳性的人数远多于吸毒被检测出来的人数(上述例子中10人 > 5 人),所以即使阳性检测灵敏度能到100%(即只要吸毒一定验出阳性),检测结果阳性的员工,真正吸毒的概率 P ( D | + ) {\displaystyle P(D|+)} 也只会提高到约33.4%。但如果灵敏度仍然是99%,而特异度却提高到99.5%(即不吸毒的人中,约0.5%会被误检为阳性),则检测结果阳性的员工,真正吸毒的概率可以提高到49.9%。

基于贝叶斯定理:即使100%的胰腺癌症患者都有某症状,而某人有同样的症状,绝对不代表该人有100%的概率得胰腺癌,还需要考虑先验概率,假设胰腺癌的发病率是十万分之一,而全球有同样症状的人有万分之一,则此人得胰腺癌的概率只有十分之一,90%的可能是是假阳性。

基于贝叶斯定理:假设100%的不良种子都表现A性状,而种子表现A性状,并不代表此种子100%是不良种子,还需要考虑先验概率,假设一共有6万颗不良种子,在种子中的比例是十万分之一(假设总共有60亿颗种子),假设所有种子中有1/3表现A性状(即20亿颗种子表现A性状),则此种子为不良种子的概率只有十万分之三。

相关

  • 波浪能波浪能(英语:Wave Energy)是海洋表面波浪运动所转送的能量,可利用成为能源作不同用途,例如发电、海水淡化或推动抽水机等。海洋波浪是由太阳能源转换而成的,因为太阳辐射的不均匀
  • span class=nowrapCdSOsub4/sub/span硫酸镉,化学式CdSO4,常为水合物 3CdSO4·8H2O 的形式。无色无气味单斜结晶,溶于水,不溶于乙醇、乙醚和乙酸。易风化。剧毒!1、金属镉、蒸馏水和硫酸在反应器中,30%过氧化氢存在下进
  • 高雄火车站台湾总督府交通局铁道部- 1941年6月22日 (昭和16年) 台湾铁路管理局 (后站)- 1971年10月31日 (民国60年) 台湾铁路管理局 (临时站)- 2002年3月28日 (民国91年) 台湾铁路管理
  • 铎受体Toll基因编码Toll样受体蛋白家族。Toll基因的突变最初由1995年诺贝尔奖得主克里斯汀·纽斯林-沃尔哈德以及艾瑞克·威斯乔斯以及他们的同事于1985年在黑腹果蝇(Drosophila me
  • 禅城区禅城区是中国广东省佛山市下辖的一个市辖区,是市政府的所在地,佛山市中心城区组团的一部分,也是佛山的政治和文化中心。禅城区位于珠江三角洲腹地,广州市西南,佛山市中部。地处东
  • 400型台铁S400型柴电机车,是台湾铁路管理局于1969年为配合七堵调车场购入之驼峰调车专用铁路机车。1969年,台铁以第二次世界银行贷款购买5辆GM-EMD公司所制造的EMD GA18(英语:EMD GA1
  • 中龙中龙属(属名:Mesosaurus)是一种小型水生爬行动物,生存于二叠纪早期的南美洲和南非。身长可达1米。生活于盐湖之中。中龙是最早回到水中生存的爬行动物之一,身长约1米,它的脚掌有蹼
  • 石蟹详见内文石蟹科(Lithodidae),其物种俗称石蟹、白石蟹或岩蟹,是十足目石蟹总科的一个甲壳类的科,分布在寒冷的海域。由于它们的体型巨大及肉质美味,很多物种都被广泛捕捉来作为食物
  • 朝鲜湾西朝鲜湾(朝鲜语:서조선만/西朝鮮灣 Sŏjosŏn man */?),韩国称西韩湾(朝鲜语:서한만/西韓灣 Seohan man */?),是一个在黄海北部的海湾,位于中国辽宁省和朝鲜黄海南道之间,与渤海由
  • 各州政府领袖最高元首后东古阿齐兹纱阿蜜娜(英语:Tunku Azizah Aminah Maimunah)副最高元首苏丹纳兹林沙(马来语:Sultan Nazrin Muizuddin Shah ibni Sultan Azlan Muhibbuddin Shah)副总理(不