VLDB是面向数据管理和数据库研究人员、供应商、从业人员、应用程序开发人员等用户的重要国际年度论坛。VLDB 2019会议将以研究报告,教程,演示和研讨会为特色。由于它们是21世纪新兴应用程序的技术基石,因此它将涵盖数据管理,数据库和信息系统研究中的问题。 官网地址:http://dblp.uni-trier.de/db/conf/vldb/

VIP内容

摘要:基数估计是查询优化中一个基本但长期未解决的问题。本文研究者提出了一个前瞻性的问题:「我们是否准备好在生产中部署这些 learned 的基数模型?」研究包括三个主要部分:

首先,关注静态环境 (即没有数据更新) 并在统一的工作负载设置下,对四个真实世界的数据集比较了五种新的 learned methods 和九种传统方法。结果表明,learned models 确实比传统方法更准确,但是它们往往需要较高的训练和推理成本;

其次,探索这些 learned models 是否适用于动态环境 (例如频繁的数据更新)。研究发现,它们无法跟上快速数据更新并返回由于不同原因造成的重要错误。对于不太频繁的更新,它们可以表现得更好,但它们之间没有明确的赢家;

第三,更深入地研究了 learned models,并探索它们何时可能出错。结果表明,learned methods 的性能可以很大程度上受到变化的影响,比如偏斜或领域大小。更重要的是,其行为很难解释,而且常常难以预测。

成为VIP会员查看完整内容
0
4

最新论文

This note extends the analysis of incremental PageRank in [B. Bahmani, A. Chowdhury, and A. Goel. Fast Incremental and Personalized PageRank. VLDB 2011]. In that work, the authors prove a running time of $O(\frac{nR}{\epsilon^2} \ln(m))$ to keep PageRank updated over $m$ edge arrivals in a graph with $n$ nodes when the algorithm stores $R$ random walks per node and the PageRank teleport probability is $\epsilon$. To prove this running time, they assume that edges arrive in a random order, and leave it to future work to extend their running time guarantees to adversarial edge arrival. In this note, we show that the random edge order assumption is necessary by exhibiting a graph and adversarial edge arrival order in which the running time is $\Omega \left(R n m^{\lg{\frac{3}{2}(1-\epsilon)}}\right)$. More generally, for any integer $d \geq 2$, we construct a graph and adversarial edge order in which the running time is $\Omega \left(R n m^{\log_d(H_d (1-\epsilon))}\right)$, where $H_d$ is the $d$th harmonic number.

0
0
下载
预览
Top