基于统计关系学习的自动数据清洗

2019 年 3 月 1 日 FCS

点击上方蓝字

关注我们

       现实世界中脏数据十分普遍,从脏数据中检测和修复错误是数据分析领域的主要挑战之一,数据错误和缺失等数据质量问题直接影响到数据分析结果的准确性。过去几十年中,脏数据清洗是数据管理领域的研究热点之一。现有的数据清洗方法通常需要使用现成的约束/规则,或者需要人工介入。在现成的约束/规则缺失的情况下进行数据清洗是一个挑战性问题。本文提出一个基于统计关系学习的脏数据自动清洗方法,从脏数据中学习得到数据表属性之间的贝叶斯网络,进而转换成一阶谓词逻辑,基于互信息计算一阶谓词逻辑权重,得到对应的马尔科夫逻辑网络,将马尔科夫逻辑网络转换成DeepDive规则,进而基于DeepDive进行概率推理,推理结果用于错误数据修复和缺失数据填充。基于真实数据集的实验结果表明本文提出的方法能够有效进行脏数据的自动清洗。

文章精要

请长按下方二维码识别,阅读该文。

 更多详细证明信息,请参考网页上的Supplementary material部分。

相关内容推荐:

利用局部计算的整体性子图匹配 2018,12(5):966-983

FCS 12(1) 文章 | 处理大规模索引中的查询偏斜:一种基于视图的方法

FCS 12(1) 文章 | 伪相关反馈的强度Pareto适应度分配:在MEDLINE中的应用



Frontiers of Computer Science



Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。




长按二维码关注Frontiers of Computer Science公众号

登录查看更多
7

相关内容

专知会员服务
128+阅读 · 2020年7月10日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
缺失数据统计分析,第三版,462页pdf
专知会员服务
103+阅读 · 2020年2月28日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
基于差分隐私的地理社交网络发布
FCS
9+阅读 · 2019年2月22日
卷积自适应降噪自动编码器
FCS
8+阅读 · 2019年1月3日
“弄假成真”:基于对抗学习的数据增广方法
科技导报
4+阅读 · 2018年10月8日
基于样本选择的安全图半监督学习方法
FCS 12(1) 文章 | 知识图谱综述
FCS
7+阅读 · 2018年3月12日
基于MOOC数据的学习行为分析与预测
计算机研究与发展
6+阅读 · 2017年10月11日
Arxiv
22+阅读 · 2019年11月24日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关资讯
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
基于差分隐私的地理社交网络发布
FCS
9+阅读 · 2019年2月22日
卷积自适应降噪自动编码器
FCS
8+阅读 · 2019年1月3日
“弄假成真”:基于对抗学习的数据增广方法
科技导报
4+阅读 · 2018年10月8日
基于样本选择的安全图半监督学习方法
FCS 12(1) 文章 | 知识图谱综述
FCS
7+阅读 · 2018年3月12日
基于MOOC数据的学习行为分析与预测
计算机研究与发展
6+阅读 · 2017年10月11日
Top
微信扫码咨询专知VIP会员