首页 >
P值
✍ dations ◷ 2024-11-05 18:48:26 #P值
p值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分 。对于一个统计模型的参数空间
Θ
{displaystyle Theta }
,我们把参数空间划分为两个不相交的集合
Θ
0
{displaystyle Theta _{0}}
和
Θ
1
{displaystyle Theta _{1}}
,然后给定的随机样本
X
=
(
X
1
,
⋯
,
X
n
)
{displaystyle X=(X_{1},cdots ,X_{n})}
,我们想检验参数在哪一个划分的空间我们构造的拒绝域是
对于一个可以探测参数
θ
{displaystyle theta }
的统计量
T
(
X
)
{displaystyle T(X)}
,我们定义拒绝域为该统计量大于阈值
c
{displaystyle c}
的形式:那么,一个拥有拒绝域是
R
T
{displaystyle R_{T}}
的假设检验方法,则该检验的统计功效函数被定义为一个检验的检验水准(size)是犯第一类错误概率的上确界
α
=
sup
θ
∈
Θ
0
β
T
(
θ
)
{displaystyle alpha =sup _{theta in Theta _{0}}beta _{T}(theta )}
。我们称一个检验具有显著性水平
α
0
{displaystyle alpha _{0}}
,如果它的检验水准小于等于
α
0
{displaystyle alpha _{0}}
,即假定对于所有小数
α
0
∈
(
0
,
1
)
{displaystyle alpha _{0}in (0,1)}
,存在一个显著性水平为
α
0
{displaystyle alpha _{0}}
的检验,其拒绝域是
R
α
0
,
T
{displaystyle R_{alpha _{0},T}}
,那么p值的数学定义是满足包含关系
T
(
X
)
∈
R
α
0
,
T
{displaystyle Tleft(Xright)in R_{alpha _{0},T}}
的最小
α
0
{displaystyle alpha _{0}}也就是说p值是被定义为拒绝零假设
H
0
{displaystyle H_{0}}
的最低显著性水平。p值是基于数据的检验统计量算出来的概率值。如果p值是5%,也就是说,如果你以此为界拒绝原假设的话,那么有只有5%的可能性要犯错误。本来原假设是对的,但你却给拒绝了,这是要犯错误的。所以说p值越大,拒绝原假设的理由越不充分。如果p值接近于0,你拒绝原假设,那么你几乎不可能犯错误,于是说明数据是极其不符合原假设。换言之,是检验假设中零假设成立或表现更严重的可能性。p值若与选定显著性水平(0.05或0.01)相比更小,则虚无假设会被否定而不可接受。然而这并不直接表明原假设正确。通常在连续分布的假设下,p值是一个服从区间均匀分布的随机变量,在实际使用中因样本等各种因素存在不确定性。近100年来,统计学家使用p值来描述数据的统计显著性,这种方法造成了许多人在工作中把统计显著性的阈值(事先给定值)强行假定为大于等于实际显著性(实际数据计算出的p值),于是强行拒绝原假设,做出了很多不科学的决策。p值产生的结果可能会带来争议。2018年,由72位科学家组成的小组在《自然·人类行为》上发表了一篇名为《重新定义统计意义》的评论文章,赞同将统计显著性的阈值从0.05调整到0.005。这样就使得科研人员不能强行让如此小的统计显著性阈值大于实际数据计算出来的p值。这篇文章的主要作者本杰明认为:“这是一个不完美的短期解决方案,但可以立即实施。我担心的是,如果我们不立即做这事,我们将失去变革的动力,而我们最终将花费所有的时间争论理想化的解决方案。”在科学研究的许多领域,p值小于0.05被认为是确定实验数据可靠性的金标准。这个标准支持了大多数已发表的科学结论,违反这一标准的论文很难发表,而且也很难得到学术机构的资助。然而,即使是费雪也明白,统计显著性的概念以及支撑它的p值具有相当大的局限性。几十年来,科学家也逐渐意识到了这些局限性。1925年,英国遗传学家兼统计学家罗纳德·费雪(Ronald Fisher)出版了《研究者的统计方法》(Statistical Methods for Research Workers)一书。这本书的书名在当时看起来并不会“畅销”,但实际上这本书却取得了巨大的成功,而且还使费雪成为现代统计学之父。在这本书中,他着眼于研究人员如何将统计检验理论应用于实际数据,以便基于数据得出他们所发现的结论。当使用某个统计假设来做检验时,该检验能够概述数据与其假设的模型之间的兼容性,并生成一个p值。
费雪建议,作为一个方便的指南,研究人员可以考虑将p值设为0.05。对于这一点,他专门论述道:“在判断某个偏差是否应该被认为是显著的时候,将这一阈值作为判断标准是很方便的。”他还建议,p值低于该阈值的结论是可靠的,因此不要把时间花在大于该阈值的统计结论上。因此,费雪的这一建议诞生了p小于0.05等价于所谓的统计显著性,这成了 “显著”的数学定义。
相关
- 方式关系方式关系(英语:troponymy)指的是词位之间因“方式”的联系而存在的关系。这个概念由克里斯蒂安妮·费尔巴姆(英语:Christiane Fellbaum)和乔治·A·米勒首次提出。例如,咕哝、嘟囔
- 域在生物分类学中,域(英语:domain、superkingdom、empire、拉丁语:regio)是美国生物学家卡尔·沃斯1990年设计的三域系统中最高的分类单元,该系统中,生命之树(英语:Tree of life (biolo
- 克莱恩-莱文综合征克莱恩-莱文症候群(英语:Kleine-Levin syndrome,简称为KLS),又名睡美人症候群(英语:Sleeping Beauty syndrome),系一种不常见的睡眠障碍,特征是持续的阵发过度嗜睡症及认知或情绪变化
- 肢端肥大症肢端肥大症(Acromegaly)是肇因于人体的生长板关闭后生长激素(GH)仍过度分泌所引起的疾病。 最初的症状通常是手部和足部肿大,前额、下巴和鼻子也可能会变大。其他症状可能包括关
- 选择性缄默症选择性缄默症(英语:Selective mutism)是一种社交焦虑症,患者有正常说话的能力,但在特定情境下就是说不出口。《精神疾病诊断与统计手册》把选择性缄默症描述为儿童的罕见心理失调
- 大流行病瘟疫,指大型且具有传染力又会造成死亡的流行病,在广大区域或全球多处传染人或其他物种。现代医学卫生发达,许多会造成大量死亡的瘟疫都有效控制为流行病等级。根据世界卫生组织
- 朝鲜在联合国安理会关于朝鲜的决议已经通过了24项。五十年代朝鲜战争期间通过了五项决议。1991年关于朝鲜加入联合国的决议后。作为联合国会员国,安理会至今通过了关于朝鲜的导弹
- 维利奇卡盐矿维利奇卡盐矿(波兰语:Kopalnia soli Wieliczka)位于波兰克拉科夫附近,是一个从13世纪起就开采的盐矿,目前已基本停产。盐矿有327米深,超过287公里长。盐矿中有房间、礼拜堂、和地
- 息肉新生物、息肉、瘜肉或赘生物(英语:neoplasm),是指身体细胞组织不正常的增生,当生长的数量庞大,便会成为肿瘤(英语:tumor)。而肿瘤亦可以是良性或恶性的。肿瘤(英语:tumor)在医学上是指细
- 艾耶尔阿尔弗雷德·艾耶尔爵士(Sir. Alfred Jules Ayer,1910年10月29日-1989年6月27日),英国哲学家,因1936年出版的《语言、真理与逻辑》而闻名于世。此书中他提出了逻辑实证主义的一个