数据清洗

✍ dations ◷ 2025-09-13 04:57:07 #数据清洗

数据清洗(data cleaning)是从记录集、数据库表或数据库中检测和纠正(或删除)损坏或不准确的记录的过程,是指识别数据的不完整、不正确、不准确或不相关部分,然后替换、修改、或删除脏数据或粗数据。数据清洗可以与数据加工工具交互执行,也可以通过脚本进行批处理。

清洗后,一个数据集应该与系统中其他类似的数据集保持一致。 检测到或删除的不一致可能最初是由用户输入错误、传输或存储中的损坏或不同存储中类似实体的不同数据字典定义引起的。 数据清理与数据确认(data validation)的不同之处在于,数据确认几乎总是意味着数据在输入时被系统拒绝,并在输入时执行,而不是执行于批量数据。

数据清洗不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清洗软件能够自动检测数据文件,更正错误数据,并用全企业一致的格式集成数据。

相关

  • CL-20六硝基六氮杂异伍兹烷2,4,6,8,10,12-六硝基-2,4,6,8,10,12-六氮杂异伍兹烷,简称六硝基六氮杂异伍兹烷、HNIW,俗称CL-20,是具有笼型多环硝胺结构的一个高能量密度化合物,分子式为
  • 比利时饮食比利时饮食有着很大的地区差异,也受到了邻国法国、德国和荷兰饮食文化的影响。人们形容比利时饮食有着德国饮食的量和法国饮食的质。对外国来说,比利时饮食的代表包括巧克力
  • 原口一博原口一博(1959年7月2日-) ,日本政治家,日本众议院议员(7期)。总务大臣(第12-13代)、内阁府特命担当大臣(地域主权推进担当)、佐贺县议会议员(2期)。麻生内阁 (模板)(2009年9月16日—2010年6
  • 看见你的声音《看见你的声音》(韩语:너의 목소리가 보여)是韩国Mnet电视台的综艺节目,原由俞世润、金范洙、利特(Super Junior)主持,于第四季金锺国接棒金范洙成为主持。节目将邀请嘉宾出演,透过
  • 格奥尔格·艾尔塞约翰·格奥尔格·艾尔塞(Johann Georg Elser,1903年1月4日-1945年4月9日),木匠,是一位反纳粹人士。1939年他单枪匹马的试图在慕尼黑的贝格勃劳凯勒啤酒馆一年一度的啤酒馆政变纪念
  • 方成邰儒学教授、国子监助教方成邰(1621年-1687年),字穉稷,遂安人。明末清初儒林人士,以平易闻名。 少傅东阁大学士方逢年第五个儿子,侧室汪氏所生,个性简易,和侄子方象璜、方象瑛幼时互相
  • 边疆书店边疆书店(英语:Borderlands Books)是一家位于旧金山的独立书店,专门贩售科幻、奇幻、和恐怖类小说。1997年艾伦·彼兹(Alan Beatts)在Hayes Valley创立了这家店,起初只卖二手书籍,其
  • 乔治·弗里曼乔治·弗里曼(George Freeman,1967年7月12日-)是一位英格兰政治人物,他的党籍是保守党。自2010年开始,他担任中诺福克选区选出的英国下议院议员。他毕业于剑桥大学格顿学院。
  • 刘月卯刘月卯(1967年10月-),男,中国书法家,现任中国书法家协会副主席,河北省书法家协会副主席。
  • 小约翰·范安特卫普·法恩小约翰·范安特卫普·法恩(英语:John Van Antwerp Fine Jr.;1939-)是一位美国历史学家,密歇根大学的巴尔干与拜占庭史教授。1939年,他出生于美国新泽西州普林斯顿,他的父亲名叫老约翰·范安德卫普·法恩(John Van Antwerp Fine Sr. ;1903-1987年),是普林斯顿大学的希腊历史与古典文学教授。他的母亲名叫伊丽莎白·邦廷·法恩(Elizabeth Bunting Fine),也是古典学学者,在法恩小姐学校(英语:Princeton Day School)