辛普森悖论

✍ dations ◷ 2024-12-23 00:26:37 #统计学悖论,概率论悖论

当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森(英语:Edward Hugh Simpson)在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。此悖论的最终原因和选择偏差(英语:selection bias)、幸存者偏差、以及柏克森悖论(英语:Berkson's paradox)一样,是源自对撞因子。

请看下面的例子

一所美国高校的两个学院,分别是法学院和商学院。新学期招生,人们怀疑这两个学院有性别歧视。现作如下统计:

法学院

商学院

根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较高。现在将两学院的数据汇总:

在总评中,女生的录取比率反而比男生低。

借助一幅向量图可以更好的了解情况(右图)

这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。

就上述例子说,导致辛普森悖论有两个前提。

为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,我们必需清楚了解情况,以综合考虑是否存在造成此悖论的潜在因素。

相关

  • 流行性乙型脑炎流行性乙型脑炎(英语:Japanese encephalitis,港澳台译为日本脑炎),中国大陆简称乙脑,是由乙型脑炎病毒(英语:Japanese encephalitis virus)(JEV)导致的脑实质炎症,为主要病理改变的急性
  • 增生性贫血增生性贫血即指血液中某种细胞增生过多引起其他细胞成分相对减少的贫血。包括三大类贫血:溶血性贫血、缺铁性贫血和巨幼细胞增生性贫血
  • .gf.gf为法国海外属地法属圭亚那国家及地区顶级域(ccTLD)的域名。A .ac .ad .ae .af .ag .ai .al .am .ao .aq .ar .as .at .au .aw .ax .az   B .ba .bb .bd .be .bf .bg .b
  • span class=nowrapAgsub2/subSOsub4/sub/span&g硫酸银 (Ag2SO4),相对分子质量311.80。密度5.45克/厘米3。熔点652℃,于1085℃分解。微溶于水。溶于氨水、浓硝酸、硫酸,不溶于稀硝酸、乙醇。可用来作化学试剂。硫酸银可由将硫
  • 威廉·亨利·珀金威廉·亨利·珀金爵士,FRS(英语:Sir William Henry Perkin,1838年3月12日-1907年7月14日),英国化学家。他在18岁发现了首个苯胺染料——苯胺紫。1853年15岁的珀金入读伦敦的皇家化
  • 西莫恩·德尼·泊松西莫恩·德尼·泊松男爵(法语:Siméon Denis Poisson,法语发音为/simeõ d̪əni pwasõ/,1781年6月21日-1840年4月25日),法国数学家、几何学家和物理学家。1798年,他以当年第一名成
  • 安茹安茹帝国(Angevin empire)这个术语,是历史学家对金雀花王朝统治英格兰和法兰西西部时代的称号。12世纪后半叶开始,由英格兰国王亨利二世和他的继承人理查一世和约翰统治的安茹帝
  • 五月革命阿根廷五月革命(西班牙语:La Revolución de Mayo)是发生在南美洲西班牙殖民地的第一次独立运动。1810年拿破伦入侵西班牙,推翻了西班牙国王斐迪南七世,任命自己的兄长约瑟夫为西
  • 南北大道南北大道(马来语:Lebuhraya Utara-Selatan,英语:North-South Expressway,泰米尔语:வடக்கு-தெற்கு விரைவுசாலை,简称:英语:NSE或马来语:PLUS)位于马来西亚半岛西海
  • 萨伊定律萨伊定律(英语:Say's Law),也称作萨伊市场定律(Say's Law Of Market),是一种在19世纪初流行的经济思想定律,为19世纪的古典经济学的思想和主流的经济思想。该定律得名来自19世纪的法