Inconsistent values are commonly encountered in real-world applications, which can negatively impact data analysis and decision-making. While existing research primarily focuses on identifying the smallest removal set to resolve inconsistencies, recent studies have shown that multiple minimum removal sets may exist, making it difficult to make further decisions. While some approaches use the most frequent values as the guidance for the subset repair, this strategy has been criticized for its potential to inaccurately identify errors. To address these issues, we consider the dependencies between attribute values to determine a more appropriate subset repair. Our main contributions include (1) formalizing the optimal subset repair problem with attribute dependencies and analyzing its computational hardness; (2) computing the exact solution using integer linear programming; (3) developing an approximate algorithm with performance guarantees based on cliques and LP relaxation; and (4) designing a probabilistic approach with an approximation bound for efficiency. Experimental results on real-world datasets validate the effectiveness of our methods in both subset repair performance and downstream applications.


翻译:在实际应用中,不一致的数值普遍存在,这可能对数据分析和决策产生负面影响。尽管现有研究主要集中于识别最小的移除集合以解决不一致性问题,但近期研究表明可能存在多个最小移除集合,这使得进一步决策变得困难。虽然部分方法采用最频繁出现的数值作为子集修复的指导依据,但该策略因可能错误识别误差而受到批评。为解决这些问题,我们考虑属性值之间的依赖关系来确定更合适的子集修复方案。我们的主要贡献包括:(1)形式化具有属性依赖关系的最优子集修复问题并分析其计算复杂度;(2)使用整数线性规划计算精确解;(3)基于团和线性规划松弛开发具有性能保证的近似算法;(4)设计具有近似效率界限的概率方法。在真实数据集上的实验结果验证了我们方法在子集修复性能和下游应用中的有效性。

0
下载
关闭预览

相关内容

【AAAI2024】面向序列推荐的插件扩散模型
专知会员服务
27+阅读 · 2024年1月9日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月18日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员