首页 >
贝叶斯统计
✍ dations ◷ 2025-10-07 03:08:39 #贝叶斯统计
贝叶斯定理(英语:Bayes' theorem)是概率论中的一个定理,描述在已知一些条件下,某事件的发生概率。比如,如果已知某癌症与寿命有关,使用贝叶斯定理则可以通过得知某人年龄,来更加准确地计算出他罹患癌症的概率。通常,事件A在事件B已发生的条件下发生的概率,与事件B在事件A已发生的条件下发生的概率是不一样的。然而,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途,即通过已知的三个概率而推出第四个概率。贝叶斯定理跟随机变量的条件概率以及边缘概率分布有关。作为一个普遍的原理,贝叶斯定理对于所有概率的解释是有效的。这一定理的主要应用为贝叶斯推断,是推论统计学中的一种推断法。这一定理名称来自于托马斯·贝叶斯。贝叶斯定理是关于随机事件A和B的条件概率的一则定理。P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
{displaystyle P(Amid B)={frac {P(Bmid A)P(A)}{P(B)}}}其中
A
{displaystyle A}
以及
B
{displaystyle B}
为随机事件,且
P
(
B
)
{displaystyle P(B)}
不为零。
P
(
A
|
B
)
{displaystyle P(A|B)}
是指在事件
B
{displaystyle B}
发生的情况下事件
A
{displaystyle A}
发生的概率。在贝叶斯定理中,每个名词都有约定俗成的名称:按这些术语,贝叶斯定理可表述为:也就是说,后验概率与先验概率和相似度的乘积成正比。另外,比例
P
(
B
|
A
)
/
P
(
B
)
{displaystyle P(B|A)/P(B)}
也有时被称作标准似然度(standardised likelihood),贝叶斯定理可表述为:根据条件概率的定义。在事件B发生的条件下事件A发生的概率是:其中 A与B的联合概率表示为
P
(
A
∩
B
)
{displaystyle P(Acap B)}
或者
P
(
A
,
B
)
{displaystyle P(A,B)}
或者
P
(
A
B
)
{displaystyle P(AB)}
。同样地,在事件A发生的条件下事件B发生的概率整理与合并这两个方程式,我们可以得到这个引理有时称作概率乘法规则。上式两边同除以P(B),若P(B)是非零的,我们可以得到贝叶斯定理:贝叶斯定理通常可以再写成下面的形式:其中AC是A的补集(即非A)。故上式亦可写成:在更一般化的情况,假设{Ai}是事件集合里的部分集合,对于任意的Ai,贝叶斯定理可用下式表示:贝叶斯定理亦可由相似率Λ和可能性O表示:其中定义为B发生时,A发生的可能性(odds);则是A发生的可能性。相似率(Likelihood ratio)则定义为:贝叶斯定理亦可用于连续几率分布。由于概率密度函数严格上并非几率,由几率密度函数导出贝叶斯定理观念上较为困难(详细推导参阅)。贝叶斯定理与几率密度的关系是由求极限的方式建立:全几率定理则有类似的论述:如同离散的情况,公式中的每项均有名称。
f(x, y)是X和Y的联合分布;
f(x|y)是给定Y=y后,X的后验分布;
f(y|x)= L(x|y)是Y=y后,X的相似度函数(为x的函数);
f(x)和f(y)则是X和Y的边际分布;
f(x)则是X的先验分布。
为了方便起见,这里的f在这些专有名词中代表不同的函数(可以由引数的不同判断之)。对于变数有二个以上的情况,贝叶斯定理亦成立。例如:这个式子可以由套用多次二个变数的贝式定理及条件几率的定义导出:一般化的方法则是利用联合几率去分解待求的条件几率,并对不加以探讨的变数积分(意即对欲探讨的变数计算边缘几率)。取决于不同的分解形式,可以证明某些积分必为1,因此分解形式可被简化。利用这个性质,贝叶斯定理的计算量可能可以大幅下降。贝氏网络为此方法的一个例子,贝氏网络指定数个变数的联合几率分布的分解型式,该几率分布满足下述条件:当其他变数的条件几率给定时,该变数的条件几率为一简单型式。下面展示贝叶斯定理在检测吸毒者时的应用。假设一个常规的检测结果的灵敏度和特异度均为99%,即吸毒者每次检测呈阳性(+)的概率为99%。而不吸毒者每次检测呈阴性(-)的概率为99%。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理却可以揭示一个潜在的问题。假设某公司对全体雇员进行吸毒检测,已知0.5%的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?令“D”为雇员吸毒事件,“N”为雇员不吸毒事件,“+”为检测呈阳性事件。可得根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率P(D|+):尽管吸毒检测的准确率高达99%,但贝叶斯定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约33%,不吸毒的可能性比较大。假阳性高,则检测的结果不可靠。这是因为该公司不吸毒的人数远远大于吸毒人数,所以即使不吸毒者被误检为阳性的概率仅为1%,其实际被误检人数还是很庞大。举例来说,若该公司总共有1000人(其中5人吸毒,995人不吸),不吸毒的人被检测出阳性的人数有大约10人(1% x 995),而吸毒被验出阳性的人数有5人(99% x 5),总共15人被验出阳性(10 + 5)。在这15人里面,只有约33%的人是真正有吸毒。所以贝叶斯定理可以揭露出此检测在这个案例中的不可靠。同时,也因为不可靠的主因是不吸毒却被误检阳性的人数远多于吸毒被检测出来的人数(上述例子中10人 > 5 人),所以即使阳性检测灵敏度能到100%(即只要吸毒一定验出阳性),检测结果阳性的员工,真正吸毒的概率
P
(
D
|
+
)
{displaystyle P(D|+)}
也只会提高到约33.4%。但如果灵敏度仍然是99%,而特异度却提高到99.5%(即不吸毒的人中,约0.5%会被误检为阳性),则检测结果阳性的员工,真正吸毒的概率可以提高到49.9%。基于贝叶斯定理:即使100%的胰腺癌症患者都有某症状,而某人有同样的症状,绝对不代表该人有100%的概率得胰腺癌,还需要考虑先验概率,假设胰腺癌的发病率是十万分之一,而全球有同样症状的人有万分之一,则此人得胰腺癌的概率只有十分之一,90%的可能是是假阳性。基于贝叶斯定理:假设100%的不良种子都表现A性状,而种子表现A性状,并不代表此种子100%是不良种子,还需要考虑先验概率,假设一共有6万颗不良种子,在种子中的比例是十万分之一(假设总共有60亿颗种子),假设所有种子中有1/3表现A性状(即20亿颗种子表现A性状),则此种子为不良种子的概率只有十万分之三。
相关
- 鸦片类药物阿片类药物(Opioid)是具有吗啡作用的化学物质,主要用途是镇痛。阿片类药物通过存在于中枢神经系统和消化系统的阿片类受体(Opioid receptor)起作用。这些阿片类受体能引发有益的
- 非编码DNA非编码DNA(英语:Non-Coding DNA,或称“垃圾DNA”),是指不包含制造蛋白质的指令,或是只能制造出无翻译能力RNA的DNA序列。此类DNA在真核生物的基因组中占有大多数。有很长的一段时
- 舍曲林舍曲林(英语:Sertraline)(商品名:左洛复、彼迈乐等)是一种选择性5-羟色胺再吸收抑制剂(SSRI)类抗抑郁药,1991年由辉瑞制药公司发明。舍曲林主要用于治疗成人重度抑郁症(MDD),也用来治疗
- 抗双链DNA抗体抗双链DNA抗体(英语:Anti-dsDNA antibodies)是抗核抗体(Anti-nuclear antibody,ANA)中的一种,其靶标的抗原是双链DNA。一些血液检测如酶联免疫吸附试验(ELISA)和免疫荧光可在诊断实验
- 蜷丝动物蜷丝动物(学名:Filozoa)是后鞭毛生物下的一个单系群,包括动物与其他相近的单细胞生物。蜷丝动物的学名Filozoa系由拉丁字filum(意指“丝线”)与希腊字zōion(意指“动物”)所组成。
- 口器口器(Arthropod mouthparts),位于节肢动物口两侧的器官,有摄取食物及感觉等作用。昆虫口器由头部后面的3对附肢和一部分头部结构联合组成,主要有摄食、感觉等功能。蛛形纲口器包
- 吉奥克威廉·弗朗西斯·吉奥克(William Francis Giauque,1895年5月12日-1982年3月28日),美国化学家,1949年因对物质在接近绝对零度时表现出的性质的研究而获得诺贝尔化学奖。他在加州大
- 英国国教英格兰教会(英语:Church of England),或译为英格兰国教会、英国国教会、英格兰圣公会,是基督新教圣公宗的教会之一,16世纪英格兰宗教改革时期,由英格兰君主亨利八世领导,由神学家托
- 西蒙·怀特西蒙·大卫·曼顿·怀特,FRS (英语:Simon David Manton White,1951年9月30日-),英国、德国理论宇宙学家,与夫人桂妮薇尔·考夫曼同为马克斯·普朗克天体物理研究所所长。怀特1972年
- 2-乙基己醇2-乙基己-1-醇,分子式C8H18O。无色有特殊气味液体。可燃。粘度:9.8 mPa·s(20°C)。 溶于约720倍的水,与醇、醚和氯仿等多数有机溶剂互溶。与水形成共沸混合物,其中水占20%,共沸点99