The use of large-scale machine learning methods is becoming ubiquitous in many applications ranging from business intelligence to self-driving cars. These methods require a complex computation pipeline consisting of various types of operations, e.g., relational operations for pre-processing or post-processing the dataset, and matrix operations for core model computations. Many existing systems focus on efficiently processing matrix-only operations, and assume that the inputs to the relational operators are already pre-computed and are materialized as intermediate matrices. However, the input to a relational operator may be complex in machine learning pipelines, and may involve various combinations of matrix operators. Hence, it is critical to realize scalable and efficient relational query processors that directly operate on big matrix data. This paper presents new efficient and scalable relational query processing techniques on big matrix data for in-memory distributed clusters. The proposed techniques leverage algebraic transformation rules to rewrite query execution plans into ones with lower computation costs. A distributed query plan optimizer exploits the sparsity-inducing property of merge functions as well as Bloom join strategies for efficiently evaluating various flavors of the join operation. Furthermore, optimized partitioning schemes for the input matrices are developed to facilitate the performance of join operations based on a cost model that minimizes the communication overhead.The proposed relational query processing techniques are prototyped in Apache Spark. Experiments on both real and synthetic data demonstrate that the proposed techniques achieve up to two orders of magnitude performance improvement over state-of-the-art systems on a wide range of applications.


翻译:大型机器学习方法的使用在从商业情报到自行驾驶汽车等许多应用中正在变得无处不在。这些方法需要复杂的计算管道,包括各种类型的操作,例如预处理前或后处理数据集的关联操作和核心模型计算矩阵操作。许多现有系统侧重于高效处理只使用矩阵的操作,并假定向关系操作员提供的投入已经预先计算,并成为中间矩阵。然而,向关系操作员提供的投入在机器学习管道和自行驾驶汽车方面可能十分复杂,并可能涉及矩阵操作的各种组合。因此,实现以大矩阵数据直接操作的可缩放和高效的关系查询处理器至关重要。本文介绍了关于模拟分布式集群的大矩阵数据的新的高效和可缩放关系查询处理技术。拟议技术利用代数转换转换规则将查询执行模型改写成计算成本较低的模型。分布式查询优化计划在机器学习管道方面可能十分复杂,并且可能涉及各种矩阵操作的组合操作组合。因此,必须实现可扩缩和高效使用的关系查询器的连接关系处理程序。本文件介绍了关于模拟分布式操作的优化操作的系统的运作质量,从而实现最佳化的同步化。

0
下载
关闭预览

相关内容

Processing 是一门开源编程语言和与之配套的集成开发环境(IDE)的名称。Processing 在电子艺术和视觉设计社区被用来教授编程基础,并运用于大量的新媒体和互动艺术作品中。
专知会员服务
76+阅读 · 2021年3月16日
专知会员服务
123+阅读 · 2020年9月8日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
已删除
将门创投
5+阅读 · 2019年4月29日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
机器学习线性代数速查
机器学习研究会
19+阅读 · 2018年2月25日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Neo4j 图数据库基础
数据库开发
6+阅读 · 2017年8月1日
Arxiv
9+阅读 · 2021年6月21日
Query Embedding on Hyper-relational Knowledge Graphs
Arxiv
4+阅读 · 2021年6月17日
Arxiv
45+阅读 · 2019年12月20日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2019年4月29日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
机器学习线性代数速查
机器学习研究会
19+阅读 · 2018年2月25日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Neo4j 图数据库基础
数据库开发
6+阅读 · 2017年8月1日
Top
微信扫码咨询专知VIP会员