基于统计关系学习的自动数据清洗 - 专知

会员服务 ·

0

基于统计关系学习的自动数据清洗

2019 年 3 月 1 日 FCS

点击上方蓝字

关注我们

导

读

现实世界中脏数据十分普遍，从脏数据中检测和修复错误是数据分析领域的主要挑战之一，数据错误和缺失等数据质量问题直接影响到数据分析结果的准确性。过去几十年中，脏数据清洗是数据管理领域的研究热点之一。现有的数据清洗方法通常需要使用现成的约束/规则，或者需要人工介入。在现成的约束/规则缺失的情况下进行数据清洗是一个挑战性问题。本文提出一个基于统计关系学习的脏数据自动清洗方法，从脏数据中学习得到数据表属性之间的贝叶斯网络，进而转换成一阶谓词逻辑，基于互信息计算一阶谓词逻辑权重，得到对应的马尔科夫逻辑网络，将马尔科夫逻辑网络转换成DeepDive规则，进而基于DeepDive进行概率推理，推理结果用于错误数据修复和缺失数据填充。基于真实数据集的实验结果表明本文提出的方法能够有效进行脏数据的自动清洗。

文章精要

请长按下方二维码识别，阅读该文。

更多详细证明信息，请参考网页上的Supplementary material部分。

相关内容推荐：

利用局部计算的整体性子图匹配 2018,12(5)：966-983

FCS 12(1) 文章 | 处理大规模索引中的查询偏斜：一种基于视图的方法

FCS 12(1) 文章 | 伪相关反馈的强度Pareto适应度分配：在MEDLINE中的应用

Frontiers of Computer Science

期刊封面_icon.jpg Frontiers of Computer Science （FCS）是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊，双月刊，全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授，共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库（CSCD）核心库等收录，为 CCF 推荐期刊；两次入选“中国科技期刊国际影响力提升计划”；入选“第4届中国国际化精品科技期刊”。

长按二维码关注Frontiers of Computer Science公众号

登录查看更多

7

相关内容

统计关系学习

统计关系学习

干净的数据：数据清洗入门与实践，204页pdf

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【WWW2020-人大】通过对抗性学习从用户-项目交互数据中挖掘隐含的实体偏好以完成知识图谱补全

【WWW2020-人大】通过对抗性学习从用户-项目交互数据中挖掘隐含的实体偏好以完成知识图谱补全

专知会员服务

48+阅读 · 2020年4月1日

【斯坦福大学】图卷积神经网络和标签传播统一建模学习

专知会员服务

100+阅读 · 2020年2月20日

【CCF优秀博士学位论文奖-2019】基于路径依赖关系的循环分析技术研究，天津大学谢肖飞

【CCF优秀博士学位论文奖-2019】基于路径依赖关系的循环分析技术研究，天津大学谢肖飞

专知会员服务

20+阅读 · 2019年11月8日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

52+阅读 · 2019年11月8日

基于联合视图合成和视差求精的双目立体匹配

基于联合视图合成和视差求精的双目立体匹配

FCS

6+阅读 · 2019年6月2日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

基于差分隐私的地理社交网络发布

基于差分隐私的地理社交网络发布

FCS

9+阅读 · 2019年2月22日

卷积自适应降噪自动编码器

卷积自适应降噪自动编码器

FCS

8+阅读 · 2019年1月3日

FCS 12(1) 文章 | 知识图谱综述

FCS 12(1) 文章 | 知识图谱综述

FCS

8+阅读 · 2018年3月12日

Causality for Machine Learning

Arxiv

26+阅读 · 2019年11月24日

Deep Learning on Graphs: A Survey

Arxiv

53+阅读 · 2018年12月11日

Learning Graph Embeddings from WordNet-based Similarity Measures

Learning Graph Embeddings from WordNet-based Similarity Measures

Arxiv

4+阅读 · 2018年8月16日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

Tracking Noisy Targets: A Review of Recent Object Tracking Approaches

Arxiv

9+阅读 · 2018年2月14日

VIP会员

相关主题

统计关系学习

贝叶斯网络

相关VIP内容

干净的数据：数据清洗入门与实践，204页pdf

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【WWW2020-人大】通过对抗性学习从用户-项目交互数据中挖掘隐含的实体偏好以完成知识图谱补全

【WWW2020-人大】通过对抗性学习从用户-项目交互数据中挖掘隐含的实体偏好以完成知识图谱补全

专知会员服务

48+阅读 · 2020年4月1日

【斯坦福大学】图卷积神经网络和标签传播统一建模学习

专知会员服务

100+阅读 · 2020年2月20日

【CCF优秀博士学位论文奖-2019】基于路径依赖关系的循环分析技术研究，天津大学谢肖飞

【CCF优秀博士学位论文奖-2019】基于路径依赖关系的循环分析技术研究，天津大学谢肖飞

专知会员服务

20+阅读 · 2019年11月8日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

52+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】从推理服务到模型训练：面向大规模 LLM 智能体的高效系统构建

面向作战人员负责任地寻求生成式人工智能

《Hello-Agents》项目正式发布，一起从零学习智能体！

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

相关资讯

基于联合视图合成和视差求精的双目立体匹配

基于联合视图合成和视差求精的双目立体匹配

FCS

6+阅读 · 2019年6月2日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

基于差分隐私的地理社交网络发布

基于差分隐私的地理社交网络发布

FCS

9+阅读 · 2019年2月22日

卷积自适应降噪自动编码器

卷积自适应降噪自动编码器

FCS

8+阅读 · 2019年1月3日

FCS 12(1) 文章 | 知识图谱综述

FCS 12(1) 文章 | 知识图谱综述

FCS

8+阅读 · 2018年3月12日

相关论文

Causality for Machine Learning

Arxiv

26+阅读 · 2019年11月24日

Deep Learning on Graphs: A Survey

Arxiv

53+阅读 · 2018年12月11日

Learning Graph Embeddings from WordNet-based Similarity Measures

Learning Graph Embeddings from WordNet-based Similarity Measures

Arxiv

4+阅读 · 2018年8月16日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

Tracking Noisy Targets: A Review of Recent Object Tracking Approaches

Arxiv

9+阅读 · 2018年2月14日

大家都在搜

蓝牙安全攻防

分布式事务

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员