Query languages in general and SQL in particular are arguably one of the most successful programming interfaces. Yet, in the domain of high-energy physics (HEP), they have found limited acceptance. This is surprising since data analysis in HEP matches the SQL model well: it is fully structured data queried using combinations of selections, projections, joins, and reductions. To gain insights on why this is the case, in this paper we perform an exhaustive performance and functionality analysis of several data processing platforms (Amazon Athena, Google Big Query, Presto, Rumble) and compare them to the new RDataFrame interface of the ROOT framework, the most commonly used system by particle physicists today. The goal of the analysis is to identify the potential advantages and shortcomings of each system considering not only performance but also cost for cloud deployments, suitability of the query dialect, and resulting query complexity. The analysis is done using a HEP workload: the Analysis Description Languages (ADL) benchmark, created by physicists to capture representative aspects of their data processing tasks. The evaluation of these systems results in an interesting and rather complex picture of existing solutions: those offering the best possibilities in terms of expressiveness, conciseness, and usability turn out to be the slowest and most expensive; the fastest ones are not the most cost-efficient and involve complex queries; RDataFrame, the baseline we use as a reference, is often faster and cheaper but is currently facing scalability issues with large multi-core machines. In the paper, we analyze all the aspects that lead to such results and discuss how systems should evolve to better support HEP workloads. In the process, we identify several weaknesses of existing systems that should be relevant to a wide range of use cases beyond particle physics.


翻译:在高能物理(HEP)领域,它们往往发现接受度有限。这令人惊讶,因为HEP的数据分析与SQL模型非常匹配:它是完全结构化的数据:它使用选择、预测、组合和削减的组合来查明每个系统的潜在优点和缺点,不仅考虑到云的部署成本,还考虑到查询方方言的适合性,并由此导致问题的复杂性。为了了解为何如此,我们在本文件中对若干数据处理平台(Amazon Athena、Google Big Query、Presto、Rumble)进行了详尽的性能和功能分析。在高能物理家为获取其数据处理任务的具有代表性的方面而创建的分析语言(ADL)基准,并把它们与新的ROOT框架的RDataFrame界面比较,这是今天粒子物理学物理学家最常用的系统。 分析的目的是查明每个系统的潜在优点和缺点,不仅考虑到云层的性,而且考虑到云层的适合性,而且导致查询的复杂性。 分析语言(ADL)在物理学家为收集其数据处理任务具有代表性的参考而创建的参数时,这些结果。这些系统的评估结果是目前最令人感兴趣的和最令人感兴趣和最复杂的分析性、最复杂的可能性,我们使用最复杂的研究过程。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
202+阅读 · 2019年9月30日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
已删除
雪球
6+阅读 · 2018年8月19日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
Arxiv
35+阅读 · 2019年11月7日
VIP会员
相关资讯
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
已删除
雪球
6+阅读 · 2018年8月19日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
Top
微信扫码咨询专知VIP会员