Skyline queries are frequently used in data analytics and multi-criteria decision support applications to filter relevant information from big amounts of data. Apache Spark is a popular framework for processing big, distributed data. The framework even provides a convenient SQL-like interface via the Spark SQL module. However, skyline queries are not natively supported and require tedious rewriting to fit the SQL standard or Spark's SQL-like language. The goal of our work is to fill this gap. We thus provide a full-fledged integration of the skyline operator into Spark SQL. This allows for a simple and easy to use syntax to input skyline queries. Moreover, our empirical results show that this integrated solution of skyline queries by far outperforms a solution based on rewriting into standard SQL.
翻译:数据分析和多标准决定支持应用程序经常使用天线查询来从大量数据中筛选相关信息。 Apache Spark 是处理大、分布数据的流行框架。 框架甚至通过 Spark SQL 模块提供了一个方便的 SQL 界面。 但是, 天线查询不是本地支持的, 并且需要烦琐的重写以适应 SQL 标准或 Spark SQL 类似语言。 我们工作的目标是填补这一空白。 因此, 我们将天线操作员全面整合到 Spark SQL 中。 这样可以简单和容易地使用语法输入天线查询。 此外, 我们的经验结果显示, 这种基于重写标准 SQL 的天线查询综合解决方案远优于基于重写的标准 SQL 的解决方案 。