Cardinality estimation (CE), the task of predicting the result size of queries is a critical component of query optimization. Accurate estimates are essential for generating efficient query execution plans. Recently, machine learning techniques have been applied to CE, broadly categorized into query-driven and data-driven approaches. Data-driven methods learn the joint distribution of data, while query-driven methods construct regression models that map query features to cardinalities. Ideally, a CE technique should strike a balance among three key factors: accuracy, efficiency, and memory footprint. However, existing state-of-the-art models often fail to achieve this balance. To address this, we propose CoLSE, a hybrid learned approach for single-table cardinality estimation. CoLSE directly models the joint probability over queried intervals using a novel algorithm based on copula theory and integrates a lightweight neural network to correct residual estimation errors. Experimental results show that CoLSE achieves a favorable trade-off among accuracy, training time, inference latency, and model size, outperforming existing state-of-the-art methods.


翻译:基数估计(CE)是预测查询结果规模的任务,为查询优化的关键组成部分。准确的估计对于生成高效的查询执行计划至关重要。近年来,机器学习技术已被应用于基数估计,主要分为查询驱动和数据驱动两类方法。数据驱动方法学习数据的联合分布,而查询驱动方法构建将查询特征映射到基数的回归模型。理想情况下,一种基数估计技术应在三个关键因素之间取得平衡:准确性、效率和内存占用。然而,现有的先进模型往往难以实现这种平衡。为此,我们提出了CoLSE,一种用于单表基数估计的混合学习方法。CoLSE基于Copula理论的新算法直接建模查询区间的联合概率,并集成一个轻量级神经网络以校正残差估计误差。实验结果表明,CoLSE在准确性、训练时间、推理延迟和模型大小之间实现了有利的权衡,优于现有的先进方法。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员