SIGMOD2021数据库顶会今年来到西安。最新组委会公布了一系列最佳论文。其中来自MIT和TU Darmstadt获得数据管理最佳论文,来自Graz University of Technology的学者获得数据科学最佳论文,苹果获得工业界最佳论文。

ACM SIGMOD会议将于2021年6月20—25日在陕西西安举行。本次会议是由美国计算机协会(ACM) 数据管理专业委员会(SIGMOD)发起的国际性学术会议,位列于数据管理方向的三大顶级会议之首,旨在全球范围内为数据管理领域的研究者、开发者以及用户提供一个探索最新学术思想和研究方法、交流开发技巧、工具以及经验的平台,引导和进一步促进数据库学科的发展。

数据管理:最佳论文

Bao: Making Learned Query Optimization Practical. Ryan Marcus (MIT & Intel Labs), Parimarjan (MIT), Hongzi Mao (MIT), Nesime Tatbul (MIT & Intel Labs), Mohammad Alizadeh (MIT), Tim Kraska (MIT)

地址:

https://www.zhuanzhi.ai/paper/ea63feec9528078e87d807bd9d41b72c

最近将机器学习技术应用于查询优化的努力由于大量的训练开销、无法适应变化和糟糕的尾部性能而没有显示出多少实际收益。基于这些困难,我们引入了Bao (Bandit优化器)。Bao通过提供每个查询优化提示,利用了现有查询优化器中内置的智慧。Bao结合了现代树卷积神经网络和Thompson 抽样,一种被广泛研究的强化学习算法。因此,Bao会自动从错误中学习,并适应查询工作负载、数据和模式的变化。通过实验,我们证明了Bao可以快速学习提高端到端查询执行性能的策略,包括针对几个包含长时间运行查询的工作负载的尾部延迟。在云环境中,我们证明了与商业系统相比,Bao可以提供更低的成本和更好的性能。

  1. DFI - The Data Flow Interface for High-Speed Networks. Lasse Thostrup (TU Darmstadt), Jan Skrzypczak (Zuse Institute), Matthias Jasny (TU Darmstadt), Tobias Ziegler (TU Darmstadt), Carsten Binnig (TU Darmstadt)

在本文中,我们提出数据流接口(DFI)作为一种方法,使数据处理系统更容易利用高速网络,而无需处理RDMA的复杂性。通过提高抽象级别,DFI消除了网络通信的复杂性,使开发人员更容易声明地表示应该如何有效地路由数据以完成给定的分布式数据处理任务。正如我们在实验中所显示的,DFI能够支持各种以数据为中心的应用,这些应用程序具有高性能和低复杂性。

数据科学:最佳论文

切片发现(Slice finding)——最近一项关于调试机器学习(ML)模型的工作——旨在找到top-K数据切片,其中训练模型的表现明显比整个训练/测试数据差。这些切片可用于获取问题子集的更多数据、添加规则或以其他方式改进模型。与决策树相比,一般的切片查找问题允许重叠的切片。结果搜索空间是巨大的,因为它涵盖了特征的所有子集及其不同的值。因此,现有的工作主要依赖于启发式,并专注于适合单个节点内存的小数据集。在本文中,我们从算法和系统的角度从整体上解决了切片查找的这些可扩展性限制。我们利用切片大小、错误和结果分数的单调性来促进有效的剪枝。此外,我们提出了一个优雅的基于线性代数的枚举算法,它允许在现有的ML系统上快速枚举和自动并行化。对不同的真实世界回归和分类数据集的实验表明,有效的剪枝和高效的稀疏线性代数使精确枚举成为可能,甚至对于具有许多特征、相关性和超出单节点内存的数据集。

https://dl.acm.org/doi/10.1145/3448016.3457323

工业界:最佳论文

FoundationDB是一个十多年前创建的开源事务性键值存储。它是第一个将NoSQL架构的灵活性和可伸缩性与ACID事务(又名NewSQL)的强大功能结合起来的系统。FoundationDB采用了一种解耦的架构,将内存中的事务管理系统、分布式存储系统和内置的分布式配置系统解耦。可以独立地配置和配置每个子系统,以实现所需的可伸缩性、高可用性和容错特性。FoundationDB独特地集成了一个确定性仿真框架,用于在无数可能的故障下测试系统的每个新特性。这种严格的测试使FoundationDB极其稳定,并允许开发人员快速引入和发布新特性。FoundationDB提供了一个最小的、精心选择的特性集,它使得一系列不同的系统(从半关系数据库、文档和对象存储,到图形数据库等等)被构建为顶层。FoundationDB是苹果、Snowflake和其他公司云基础设施的基础,因为它在存储用户数据、系统元数据和配置以及其他关键信息方面具有一致性、健壮性和可用性。

https://dl.acm.org/doi/10.1145/3448016.3457559

数据管理:最佳论文提名

成为VIP会员查看完整内容
18

相关内容

ACM SIGMOD数据管理国际会议(Special Interest Group on Management Of Data.)是由美国计算机协会(ACM)数据管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地位的国际性学术会议。会议的目的是在全球范围内为数据库领域的研究者、开发者以及用户提供一个探索最新学术思想和研究方法、交流开发技巧、工具以及经验的平台,引导和促进数据库学科的发展。
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
23+阅读 · 2020年12月12日
CIKM2020最佳论文出炉!NUS《图表示假新闻检测》摘获!
专知会员服务
25+阅读 · 2020年10月24日
网络数据团队大图分析技术获得DEXA 2019最佳论文奖
中国科学院网络数据重点实验室
8+阅读 · 2019年9月3日
AAAI 2019最佳论文公布,CMU、斯坦福、MIT上榜
新智元
12+阅读 · 2019年1月28日
论文 | CIKM2017 最佳论文鉴赏
机器学习研究会
4+阅读 · 2017年12月19日
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Arxiv
5+阅读 · 2019年1月16日
Arxiv
21+阅读 · 2018年8月30日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
相关主题
相关论文
微信扫码咨询专知VIP会员