导读
条件函数依赖(CFDs)是数据一致性的重要技术,然而 CFDs 在提供一致性修复的合理值和检测潜在错误两方面存在局限性。
为了分析关联数据之间的一致性,本文提出了内容相关的条件函数依赖(CCFDs),有助于解决 CFDs 在这两方面的问题。在 CFDs 的基础上,本文研究了最小 CCFDs 规则集合的自动发现问题。存在关联关系的 CFDs 可以提供修复的参考值,从而提高一致性修复的准确度。
本文还证明了最小 CCFDs 规则集合的发现问题是 NP 完全的,并且设计了规则发现的精确方法和启发式方法。此外,由于 CFDs 的关联关系的相关性会影响清洗结果,文章通过分析数据分布的实际情况,给出了关联关系相关性的阈值选定方法。
文章精要
如需阅读本期推荐文章的全文,请点左下角的「阅读原文」链接。
Frontiers of Computer Science
Frontiers of Computer Science 是由教育部主管、高等教育出版社和德国 Springer 公司共同出版的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为李未院士,执行主编为熊璋教授和周志华教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”。
长按二维码关注Frontiers of Computer Science公众号