缺失数据

✍ dations ◷ 2025-04-04 21:04:20 #统计学,抽样

在统计调查的过程中,由于受访者对问题的遗漏、拒绝,或是调查员与调查问卷本身存在的一些疏忽,使得记录经常会出现 缺失数据 (Missing Data) 的问题。但是,几乎所有标准统计方法都假设每个个案具有可用于分析的所有变量信息,因此缺失数据就成为进行统计研究或问卷调查的工作人员所必须解决的一个问题。

Paul D. Allison在其2011年出版的Missing Data一书中,提到了许多解决缺失数据问题的方案,而它们各有利弊。

在介绍缺失数据的解决方案之前,需要明确几个相关的统计概念:

假设一个特殊变量Y有缺失数据。如果Y缺失数据的概率与Y本身的值或在该数据组中任何其他变量的值都无关的话,那么Y的数据就是完全随机缺失的(MCAR)。

如果在分析中控制了其他变量后,Y缺失数据的概率与Y值无关,则称Y的数据为随机缺失(MAR)的,即:Pr(Y missing|Y,X)=Pr(Y missing|X)。

如果数据位MAR且管制缺失数据过程的参数与要估计的参数无关,则缺失数据的机制是可忽略的。在某些情况下,MAR和可忽略性可以视为相等的条件。

如果数据不是MCAR或MAR,则说缺失数据机制是不可忽略的。

解决缺失数据问题的方法主要有:成列删除、成对删除、虚拟变量调整、插补、多重插补和最大似然。

成列删除的思想是:在分析中当某个案的任何变量有缺失数据时,便简单地将该个案从分析中排除。也称为个案删除。

成列删除方法的优点有:

成列删除方法的缺点有:

成对删除的原理是:通过所有可得的个案来计算这些描述统计的每一个。成对删除又称可得个案分析。

成对删除方法的优点是:如果数据为MCAR,成对删除就产生一致的参数估计值(在大样本中接近无偏误),且有比成列删除更少的抽样变异(较小的真实标准误),而当变量间相关性普遍较低时,成对删除会产生更有效的估计值。

成对删除方法的缺点有:

虚拟变量调整或缺失指标方法:假设某变量X有一些缺失数据,X为回归分析中数个自变量的其中一个,那么可以建立一个虚拟变量D,如果X存在数据缺失则D=1,否则D=0。同时建立一个变量X',使得当不存在数据缺失时X'=X,否则X'等于一个任意常数c。回归因变量Y于X'、D及其他在预设模型中的所有变量。

虚拟变量调整方法的优点是:它使用了所有可用的关于缺失数据的信息。

虚拟变量调整方法的缺点是:它通常会产生有偏误的系数估计值。

插补方法的基本原理是:以某些合理的猜测插补或替代缺失值,然后再接着按没有缺失数据的情况进行分析。但是,按照完整数据的情况分析插补数据会低估标准误、高估检验统计量。

多重插补法(MI)具有与最大似然法相同的最适特性,但却排除了某些局限性。特别是当数据为MAR时,正确使用多重插补会产生一致的、渐近有效且渐近正态的估计值。多重插补的另一个优势是,它几乎可以被任何一种数据或模型所使用,且分析可以利用未修改的、传统的软件执行。不过,多重插补也有缺点,它的执行可能很麻烦也很容易出错,最严重的是每次使用多重插补时,都会产生不同的估计值。

最大似然是一个有效且实用的处理随机缺失数据的方法,且对于大样本来说是最合适的,但它有一个限制条件:它需要包含所有缺失变量的联合概率的模型。因此比较适合于线性模型和对数线性模型。

任何有关不可忽略的缺失数据的方法都应伴随一个敏感性分析,因为根据假设的模型,结果可能变化很大,故试验一貌似有理范围的模型并看它们是否产生相同的结果是很重要的。


相关

  • 里昂1法国统计部门在计算土地面积时,不计算面积大于1平方公里的湖泊、池塘、冰川和河口。里昂(法兰克-普罗旺斯语:Liyon ;法语:Lyon,里昂口音:.mw-parser-output .IPA{font-family:"Char
  • 喃字陶文 ‧ 甲骨文 ‧ 金文 ‧ 古文 ‧ 石鼓文籀文 ‧ 鸟虫书 ‧ 篆书(大篆 ‧  小篆)隶书 ‧ 楷书 ‧ 行书 ‧ 草书漆书 ‧  书法 ‧ 飞白书笔画 ‧ 
  • Mgsub2/subSn锡化镁是一种二元金属间化合物,化学式为Mg2Sn。锡化镁可由相应化学计量比的单质共熔得到:锡化镁是浅蓝色的晶体,属立方晶系,空间群Fm3m,晶胞参数a = 0.67594 nm, Z = 4,具有CaF2结
  • McFadyen-Stevens反应McFadyen-Stevens反应(McFadyen-Stevens reaction)碱催化下,酰基磺酰肼发生热分解,生成相应的醛类。Dudman 等发展了一种不同的酰肼试剂。反应的具体机理仍不很清楚。有认为反应
  • abbr class=abbr title=R36/37/38: 刺激眼部、呼吸系统及皮肤R36/37/38/abbr警示性质标准词(英语:Risk Phrases,简写:R-phrases)是于《欧联指导标准67/548/EEC 附录III: 有关危险物品与其储备的特殊风险性质》里定义。该列表被集中并再出版于指导标准2001/
  • 万有引力重力(英语:gravitation/gravity),是指具有质量的物体之间相互吸引的作用,也是物体重量的来源。引力与电磁力、弱相互作用力及强相互作用力一起构成自然界的四大基本相互作用。在
  • 马斯特里赫特期马斯特里赫特期又称馬斯垂克期、麦斯里希特期。(英语:Maastrichtian)是白垩纪,亦即中生代最后的一个时期,年代大约位于72.1–66百万年前。在本时期末期发生了白垩纪-第三纪灭绝事
  • 虫媒花虫媒花并不是一种花的名称,而是指某一类植物利用昆虫来传粉,让花进行受粉而传衍后代。这类植物也称虫媒授粉植物,是植物界里有花植物的授粉方式之一。传粉的方式除了自花受粉以
  • 洛达庙遗址洛达庙遗址是1956年发掘于河南省郑州市洛达庙的夏文化遗址,出土文物较多,具有独立的文化面貌。由于与二里岗文化有共同因素,而且相对于年代来说晚于河南龙山文化又早于二里头文
  • 硝酸钕硝酸钕是一种无机化合物,化学式为Nd(NO3)3。硝酸钕可以将氧化钕、氢氧化钕或碳酸钕溶于硝酸得到:所得溶液经过小心蒸发可以得到水合硝酸钕,其中六水合物最常见。将六水合物继续