摘要:基数估计是查询优化中一个基本但长期未解决的问题。本文研究者提出了一个前瞻性的问题:「我们是否准备好在生产中部署这些 learned 的基数模型?」研究包括三个主要部分:

首先,关注静态环境 (即没有数据更新) 并在统一的工作负载设置下,对四个真实世界的数据集比较了五种新的 learned methods 和九种传统方法。结果表明,learned models 确实比传统方法更准确,但是它们往往需要较高的训练和推理成本;

其次,探索这些 learned models 是否适用于动态环境 (例如频繁的数据更新)。研究发现,它们无法跟上快速数据更新并返回由于不同原因造成的重要错误。对于不太频繁的更新,它们可以表现得更好,但它们之间没有明确的赢家;

第三,更深入地研究了 learned models,并探索它们何时可能出错。结果表明,learned methods 的性能可以很大程度上受到变化的影响,比如偏斜或领域大小。更重要的是,其行为很难解释,而且常常难以预测。

成为VIP会员查看完整内容
7

相关内容

专知会员服务
31+阅读 · 2021年7月15日
专知会员服务
29+阅读 · 2021年5月20日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
Tensorflow框架是如何支持分布式训练的?
AI100
9+阅读 · 2019年3月26日
Forge:如何管理你的机器学习实验
专知
11+阅读 · 2018年12月1日
入坑机器学习?送你一篇MIT在读博士的AI心得
THU数据派
4+阅读 · 2018年4月29日
手把手教你如何部署深度学习模型
全球人工智能
17+阅读 · 2018年2月5日
教程帖:深度学习模型的部署
论智
8+阅读 · 2018年1月20日
Deep Learning in Video Multi-Object Tracking: A Survey
Arxiv
57+阅读 · 2019年7月31日
Arxiv
6+阅读 · 2019年7月29日
VIP会员
相关VIP内容
专知会员服务
31+阅读 · 2021年7月15日
专知会员服务
29+阅读 · 2021年5月20日
微信扫码咨询专知VIP会员