本期发布术语热词:数据清洗(data cleaning)。
数据清洗(Data Cleaning)
作者:洪雪瑞,郝爽(北京交通大学)
开篇导语
本期新增术语热词:数据清洗(data cleaning)。数据清洗旨在发现并纠正数据文件中的错误,包括检查数据的准确性和一致性,处理无效值和缺失值,处理重复数据等。
InfoBox:
中文名:数据清洗
外文名:Data Cleaning
学科:数据科学
实质:通过人工,或利用清洗规则、数理统计等技术,将脏数据转化为满足质量要求的数据。
背景:
在大数据时代,数据呈指数级增长,然而数据的质量会受到许多噪声源的影响:进行数据采集时,提取器的不精确可能会引发数据缺失;多个数据源的整合导致重复记录的引入;数据输入时的人为错误导致数据违反完整性约束。若数据使用者把脏数据当作高质量数据加以分析利用,脏数据带来的后果是极其严重的。因此,保证数据质量至关重要[1]。
概述:
数据清洗是从数据集中检测和纠正(或删除)噪声数据的过程,常见的数据噪声包括缺失值、重复值、异常值等[2]。数据清洗识别数据中不完整、不准确或不相关的部分,然后进行替换、修改、或删除。
数据清洗策略分为手工清洗策略和自动清洗策略,也可混合进行,即以自动清洗为主,人工监督确认为辅。对于缺失值,可直接删除带有缺失值的记录或填充缺失值数据,填充缺失值的方法包括人工填写、使用属性的平均值、最小(大)值填充、回归分析等;对于重复值,可采用相似度计算或构建机器学习模型[3]等检测方法;对于异常值,可通过设计清洗规则来捕获数据不一致,或使用统计技术来检测异常值,修复的方法有查找最小更新集,进行数据转换,查阅外部知识库,利用概率图模型对错误进行整体推理等。
数据清洗工具:
数据清洗可以通过数据加工工具执行,也可以通过脚本进行批处理[4]。
常用的数据清洗工具有:
Altair Monarch[5]:由Altair推出的数据准备工具,可以将非结构化以及半结构化数据转换为结构化数据,清洗工作无需用户参与,清洗后的数据可直接导出到其他的分析和可视化工具,进行下一步操作。
Trifacta Wrangler[6]:是一种对文本、数值数据、二进制数据等数据类型进行清洗的半自动化工具,主要集中于业务数据,并支持将数据移植到Tableau。
OpenRefine[7]:前身是谷歌公司开发的数据清洗工具Google Refine,拥有查询、过滤、去重、分析等功能,可以把杂乱的数据变“整洁”,还能够将结果导出成多种格式的文件。
SAP Agile Data Preparation[8]:是一款以业务用户为中心的交互式工具,可帮助企业利用数据访问、转换和集成功能,从数据中获取价值,进而减少执行分析所需的数据准备时间,并降低其复杂性。
SAS Data Preparation[9]:是SAS公司推出的数据准备工具,能够帮助报告撰写人员、数据科学家以及数据分析师整合、整理和清洗数据以进行分析。
未来发展:
非结构化数据的清洗:数据清洗主要集中在结构化数据,而半结构化数据和非结构化数据的清洗需要受到更多的重视[10]。
私密数据的清洗:许多数据因包含个人信息需要加密,从加密后的数据中检测到错误信息并进行错误修复是一项重要的工作。
跨领域的数据清洗:数据清洗规则和策略的学习是一项耗时的工作,若可通过迁移学习等技术,使在一个数据集上获得的清洗规则和策略应用到其它领域的数据集上,将大大减少数据清洗的开销。
参考文献
作者介绍
洪雪瑞
北京交通大学,硕士研究生
21125170@bjtu.edu.cn
主要研究方向为人工智能赋能的数据管理
郝爽
北京交通大学,副教授
haoshuang@bjtu.edu.cn
主要研究方向为大数据清理与集成,人工智能赋能的数据管理
术语工委及术语平台介绍:
计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。
术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。
新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。
计算机术语审定工作委员会
主任:
刘挺(哈尔滨工业大学)
副主任:
王昊奋(同济大学)
李国良(清华大学)
主任助理:
李一斌(上海海乂知信息科技有限公司)
执行委员:
丁军(上海海乂知信息科技有限公司)
林俊宇(中国科学院信息工程研究所)
兰艳艳(清华大学)
张伟男(哈尔滨工业大学)
点击“阅读原文”,加入CCF。