Datasets often exhibit violations of expected monotonic trends - for example, higher education level correlating with higher average salary, newer homes being more expensive, or diabetes prevalence increasing with age. We address the problem of quantifying how far a dataset deviates from such trends. To this end, we introduce Aggregate Order Dependencies (AODs), an aggregation-centric extension of the previously studied order dependencies. An AOD specifies that the aggregated value of a target attribute (e.g., mean salary) should monotonically increase or decrease with the grouping attribute (e.g., education level). We formulate the AOD repair problem as finding the smallest set of tuples to delete from a table so that the given AOD is satisfied. We analyze the computational complexity of this problem and propose a general algorithmic template for solving it. We instantiate the template for common aggregation functions, introduce optimization techniques that substantially improve the runtime of the template instances, and develop efficient heuristic alternatives. Our experimental study, carried out on both real-world and synthetic datasets, demonstrates the practical efficiency of the algorithms and provides insight into the performance of the heuristics. We also present case studies that uncover and explain unexpected AOD violations using our framework.


翻译:数据集常常违反预期的单调趋势——例如,更高教育水平对应更高平均薪资、较新房屋价格更昂贵,或糖尿病患病率随年龄增长而上升。我们致力于量化数据集偏离此类趋势的程度。为此,我们引入了聚合序依赖(AODs),这是对先前研究的序依赖的以聚合为核心的扩展。AOD规定目标属性(如平均薪资)的聚合值应随分组属性(如教育水平)单调递增或递减。我们将AOD修复问题形式化为:从表中删除最小元组集合,使得给定AOD得以满足。我们分析了该问题的计算复杂性,提出了解决该问题的通用算法模板。我们针对常见聚合函数实例化该模板,引入了显著提升模板实例运行时间的优化技术,并开发了高效的启发式替代方案。我们在真实世界和合成数据集上进行的实验研究,证明了算法的实际效率,并深入揭示了启发式方法的性能表现。我们还通过案例研究,利用我们的框架揭示并解释了意外的AOD违规现象。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员