幽灵数据(英语:Ghost data), 是指从数据科学、统计学角度处理我们一般看不见的数据,量子成像或幽灵成像,“暗物质”或“暗能量”及其在计算机视觉领域中的新发现,甚至还包括与文物资料、经历等相关的认知数据。
在量子场论的术语中,幽灵(英语:Ghost_(physics))(ghost)、幽灵场(ghost field)或规范幽灵(gauge ghost)是规范场论中的非物理状态。在局部场超过多个物理自由度的情况下,必须使幽灵保持理论的不变性。在数据科学、统计学、计算机等术语中,幽灵数据包括为数字幽灵(digital ghost), 虚拟数据(如仿真数据、虚拟病人)、缺失数据、伪造数据、高度稀疏数据,及其他类似数据。令人容易联想到的是缺失数据。由于缺失机制(可忽略或不可忽略、随机缺失或非随机缺失等)的不同,处理方法也不尽相同。除了缺失数据,幽灵数据还包括其他看不见的数据。这些数据可能是因为部分人员能够感知而其他人不能感知的数据。
幽灵数据由John Sall和Dennis Lin教授率先在系列邀请报告中阐述。幽灵数据广泛存在于各种历史记录的数据中,包括记录的日记、照片、录音、视频,甚至存储在化石和文物等中的记忆信息。尽管这些文物仅记录部分表面特征,但是一部分人能感知其相关的更多的信息,而其他人不能感知到那些信息。能够感知更多信息的人就能构建部分并近似复制其整个生活过程。例如,在文物虚拟修复方面,数据科学家与文物专家的合作,能够能更多地存储其记录,并还原它们所携带的记忆信息。随着技术的进步,将能为原始生活提供完美复制品。
幽灵数据常包括幽灵成像、虚拟数据、缺失数据、伪造数据、仿真数据、“暗物质”、高度稀疏数据,及其他类似数据。令人容易联想到的是缺失数据。由于缺失机制的不同,处理方法也不尽相同。数据缺失可以分为随机缺失(missing at random, MAR)和非随机缺失(Missing not at random, MNAR)。缺失数据处理方法主要包括使用样本抽样推断、贝叶斯推断和似然法推断等。对于实验设计,随机完全区块设计也会遇到缺失问题。不完整均衡区块设计也可被当成随机完全区块设计带有缺失数据进行统计分析。