项目名称: 基于距离的数据约束规则研究

项目编号: No.61202008

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 计算机科学学科

项目作者: 宋韶旭

作者单位: 清华大学

项目金额: 25万元

中文摘要: 针对数据质量的需求日益迫切,基于距离的数据约束规则在数据冲突检测、数据一致性分析、数据修复等数据质量应用中具有重要作用。本项目拟研究距离约束规则的自动挖掘机制,并探讨距离约束规则在数据修复中的实践方法。其中针对距离约束规则的挖掘问题,提出无参数的距离阈值确定方法,并设计距离阈值计算算法的性能优化技术。通过研究距离约束规则的挖掘方法,能够为数据质量领域的应用提供理论依据和技术基础。其中,本项目重点研究距离约束规则在数据修复中的实际应用。通过理论分析,探讨基于距离约束规则的数据修复问题复杂度和技术难点,并提出基于安全收缩的有效近似修复方法。研究结果将通过实验进行验证。距离约束规则的自动挖掘和数据修复技术将提高数据的质量和可信度,促进我国可信软件的部署与发展。

中文关键词: 数据约束规则;距离约束规则;数据依赖关系;数据修复;数据质量

英文摘要: As data quality becomes a key issue in practice, the metric distance constraints are often deployed to improve the quality of data, such as detecting violations, analyzing consistencies, repairing dirty data and so on. In this proposal, we focus on the automatic discovery of metric distance constraints, as well as their application in the important data repairing problem. First, to find metric distance constraints automatically, we propose the parameter-free mining of distance thresholds. Advanced pruning techniques are also carefully designed to optimize the discovery process. Once the metric distance constraints are obtained by mining methods, we can investigate the foundations and techniques for applying them in solving data quality problems. In particular, we study the application of metric distance constraints in data repairing. The complexity and hardness of the repairing problem are first analyzed with theoretical proofs. Recognizing the hardness, we thereby develop a safe contraction based algorithm for approximate repairing. All the proposed approaches are evaluated through an extensive experiment. To our best knowledge, this is the first work on mining and repairing with respect to metric distance constraints. We believe that our proposal can improve the quality and reliability of data, and contribute

英文关键词: Data Constraints;Metric Distance Constraints;Data Dependencies;Data Repairing;Data Quality

成为VIP会员查看完整内容
0

相关内容

《2021—2022中国大数据产业发展报告》发布
专知会员服务
110+阅读 · 2022年1月23日
【WSDM2022】基于约束聚类学习离散表示的高效密集检索
专知会员服务
26+阅读 · 2021年11月16日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
92+阅读 · 2021年6月23日
专知会员服务
17+阅读 · 2021年5月16日
专知会员服务
22+阅读 · 2021年4月21日
专知会员服务
27+阅读 · 2021年2月17日
《2021—2022中国大数据产业发展报告》
专知
12+阅读 · 2022年1月23日
基于规则的建模方法的可解释性及其发展
专知
4+阅读 · 2021年6月23日
约束进化算法及其应用研究综述
专知
0+阅读 · 2021年4月12日
常见的距离算法和相似度计算方法
极市平台
18+阅读 · 2020年7月31日
机器学习计算距离和相似度的方法
极市平台
10+阅读 · 2019年9月20日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月20日
2D Human Pose Estimation: A Survey
Arxiv
0+阅读 · 2022年4月15日
小贴士
相关VIP内容
《2021—2022中国大数据产业发展报告》发布
专知会员服务
110+阅读 · 2022年1月23日
【WSDM2022】基于约束聚类学习离散表示的高效密集检索
专知会员服务
26+阅读 · 2021年11月16日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
92+阅读 · 2021年6月23日
专知会员服务
17+阅读 · 2021年5月16日
专知会员服务
22+阅读 · 2021年4月21日
专知会员服务
27+阅读 · 2021年2月17日
相关资讯
《2021—2022中国大数据产业发展报告》
专知
12+阅读 · 2022年1月23日
基于规则的建模方法的可解释性及其发展
专知
4+阅读 · 2021年6月23日
约束进化算法及其应用研究综述
专知
0+阅读 · 2021年4月12日
常见的距离算法和相似度计算方法
极市平台
18+阅读 · 2020年7月31日
机器学习计算距离和相似度的方法
极市平台
10+阅读 · 2019年9月20日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员