数据清洗

✍ dations ◷ 2025-07-04 19:41:44 #数据清洗

数据清洗(data cleaning)是从记录集、数据库表或数据库中检测和纠正(或删除)损坏或不准确的记录的过程,是指识别数据的不完整、不正确、不准确或不相关部分,然后替换、修改、或删除脏数据或粗数据。数据清洗可以与数据加工工具交互执行,也可以通过脚本进行批处理。

清洗后,一个数据集应该与系统中其他类似的数据集保持一致。 检测到或删除的不一致可能最初是由用户输入错误、传输或存储中的损坏或不同存储中类似实体的不同数据字典定义引起的。 数据清理与数据确认(data validation)的不同之处在于,数据确认几乎总是意味着数据在输入时被系统拒绝,并在输入时执行,而不是执行于批量数据。

数据清洗不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清洗软件能够自动检测数据文件,更正错误数据,并用全企业一致的格式集成数据。

相关

  • 肽链肽(英语:peptide,来自希腊文的“消化”),旧称胜,即胜肽,又称缩氨酸,是天然存在的小生物分子,介于氨基酸和蛋白质之间的物质。由于氨基酸的分子最小,蛋白质最大,而它们则是氨基酸单体组
  • 环法自行车赛环法自行车赛(法语:Le Tour de France)是一个每年举办的多赛段公路自行车赛,主要在法国进行,但有时也出入周边国家(如英国、比利时、德国、西班牙)。自从1903年开始以来,每年于夏季
  • 北莱茵-威斯特法伦北莱茵-威斯特法伦(德语:Nordrhein-Westfalen),位于德国西部,总人口超过1800万,是德国人口最多的联邦州。总面积34080平方公里,首府杜塞尔多夫。该州与比利时及荷兰接壤。莱茵-鲁尔
  • 长鼻目见内文长鼻目(学名:Proboscidea) 是哺乳动物一个目,只包含一个现存科,象科,即大象。包括普通非洲象 (Loxodonta africana)、非洲森林象 (Loxodonta cyclotis)和亚洲象(Elephas maxi
  • 清圆唇软颚近音清圆唇软颚近音(英语:voiceless labialized velar approximant)是辅音的一种,是浊圆唇软颚近音的清化音。历史上又叫做清圆唇软颚擦音。又写成或 。在美式英语中有这种辅音,很多
  • 费米娜奖费米娜奖(法语:Prix Fémina或Prix Femina),法国著名文学奖。包括费米娜奖、费米娜散文奖(Prix Femina Essai)、费米娜外国小说奖(Prix Femina Étranger)三个部门。在女诗人阿娜∙
  • 西方的没落《西方的没落》(德语:Der Untergang des Abendlandes)是德国历史哲学家奥斯瓦尔德·斯宾格勒的两卷本著作,第一卷发表于1918年夏,第二卷以《世界史的视角》为名发表于1923年。斯
  • 布伊纳卡山布伊纳卡山(加泰罗尼亚语:Buinaca),是西班牙的山峰,位于该国东北部加泰罗尼亚,属于加泰罗尼亚前海岸山脉的一部分,海拔高度764米,是卡尔多山的最高点。坐标:40°52′58″N 0°37′11
  • 2014年印度大选曼莫汉·辛格联合进步联盟纳伦德拉·莫迪印度人民党2014年印度大选于2014年4月7日到5月12日九个阶段进行,在543个议会选区中选出第16届印度人民院议员。印度人民院每5年换届一次,共有545个席位,其中543个席位由选举产生,另外两席由总统任命。选举结果在5月16日宣布,2014年5月31日当选议员开始正式就职。根据印度选举委员会数据,2014年的大选增加了1亿新的合格选民,达到8.145亿人,为世界最大规模的一次选举。这也将成为印度历史上最长和最昂贵的一次大选,选举委员会估计政府将花费350亿卢比
  • 海因茨·勃兰特海因茨·勃兰特(德语:Heinz Brandt,1907年3月11日-1944年7月21日),德国男子马术运动员。他曾代表德国参加1936年夏季奥林匹克运动会马术比赛,获得团体场地障碍赛金牌和个人场地障碍赛第十六名。