【干货】基于Apache Spark的深度学习- 专知

【干货】基于Apache Spark的深度学习

【导读】本文主要介绍了基于Apache Spark的深度学习。我们知道Spark是快速处理海量数据的框架，而深度学习一直以来都非常耗费硬件资源，因此使用在Spark框架上进行深度学习对于提升速度是非常有用的。本文介绍了Apache Spark内部结构和工作原理，以及一些实用Spark的深度学习库，并在最后介绍了相关DL pipelines库。想要学习基于Spark分布式深度学习库的读者可以了解下。

作者 | Favio Vázquez

编译 | 专知

参与 | Fan, Hujun

基于Apache Spark的深度学习

Apache Spark深度学习——第一部分

第一部分主要介绍：什么是Spark，Spark + DL的基础知识以及一些其它相关的内容。

Apache Spark的入门

如果你要在海量数据集上进行工作，那么你很有可能知道Apache Spark是什么。如果你不知道也没事！我会告诉你它是什么。

由其创建者开发的Spark是用于大规模数据处理的快速且通用的工具。

快速意味着它比之前使用大数据（如经典MapReduce）的方法更快。加速的秘诀在于Spark在内存（RAM）上运行，这使得处理速度比在磁盘上快得多。

通用意味着它可以用于多种用途，如运行分布式SQL，创建数据管道，将数据存入数据库，运行机器学习算法，处理图形、数据流等等。

RDD（弹性分布式数据集）

Apache Spark最抽象和最开始会接触到的是弹性分布式数据集（RDD）。

RDD是可以并行操作的容错元素集合。您可以创建它们来并行化驱动程序中的现有集合，或者在外部存储系统中引用数据集。（例如共享文件系统，HDFS，HBase，或提供Hadoop InputFormat的任何数据源）

Spark非常重要且需要了解的一点是，所有的变换（我们一会就去定义它）都是懒惰的，这意味着他们不会马上计算结果。相反，他们只记得应用于某些基础数据集（例如，一个文件）的变换。变换仅在有行为需要将结果返回给驱动程序时才进行计算。

默认情况下，每次对其执行操作时，每个已转换的RDD都可能会重新计算。但是，您也可以使用持久化（或缓存）方法将RDD保留在内存中，在这种情况下，Spark将保留群集中的元素，以便在下次查询时快速访问。还支持在磁盘上保存RDD，或在多个节点上复制RDD。

如果您想更多地了解Spark中RDD的转换和操作，请查看官方文档：

https://spark.apache.org/docs/latest/rdd-programming-guide.html#transformations

Dataframe

自Spark 2.0.0以来，DataFrame是由命名列组成的数据集。它在概念上等同于关系数据库中的表或R / Python中的dataframe，但在引擎盖下具有更丰富的优化。

我们不会在这里讨论数据集，但它们被定义为一个分布式数据集合，可以用JVM对象构建，然后使用功能转换进行操作。它们仅在Scala和Java中可用（因为它们是键入的）。

DataFrame可以由各种来源构建而成，例如：结构化数据文件，Hive中的表，外部数据库或现有的RDD。

简而言之，Dataframes API是Spark创建者在框架中轻松处理数据的方式。它们与Pandas Dataframes或R Dataframes非常相似，但有几个优点。当然，首先它们可以跨群集分布，所以它们可以处理大量数据，第二个是优化。

这是community采取的非常重要的一步。 2014年时，Spark与Scala或Java一起使用要快得多。并且由于性能的原因，整个Spark世界转向了Scala（是一种令人敬畏的语言）。但对于DF API，这已不再是问题，现在您可以在R，Python，Scala或Java中使用spark来获得相同的性能。

Catalyst负责这种优化。你可以把它想象成一个向导，他会接受你的查询（哦，是的，你可以在Spark中运行类似SQL的查询）和你的行为，并创建一个优化的计划用于分配计算。

这个过程并不那么简单，但作为一名程序员你甚至不会注意到它。现在，它一直在帮助你。

深度学习和Apache Spark

如果您想深入了解深度学习，请继续阅读以下文章：

https://towardsdatascience.com/a-weird-introduction-to-deep-learning-7828803693b0

https://towardsdatascience.com/my-journey-into-deep-learning-c66e6ef2a317

为什么想在Apache Spark做深度学习？

这是我在开始研究这个问题之前自问的问题。答案分为两部分：

1、 Apache Spark是一个以简单和陈述的方式在集群中分布计算的框架。正在成为各行各业的标准，因此将深度学习的惊人进步加入其中将是一件好事。

2、深度学习的有些部分计算量很大，很重！而分配这些进程可能是解决这个问题的又一个问题，Apache Spark是我可以想到分发它们的最简单方法。

这里有几种可以使用Apache Spark进行深度学习的方法，我在此列出它们：

1、 Elephas:基于Keras和PySpark的分布式深度学习框架

https://github.com/maxpumperla/elephas

2、 Yahoo! Inc.: TensorFlowOnSpark:

https://github.com/yahoo/TensorFlowOnSpark

3、 CERN分布式Keras（Distributed Keras） (Keras + Spark) :

https://github.com/cerndb/dist-keras

4、 Qubole (tutorial Keras + Spark)：

https://www.qubole.com/blog/distributed-deep-learning-keras-apache-spark/

5、 Intel Corporation: BigDL（Apache Spark的分布式深度学习库）：

https://github.com/intel-analytics/BigDL

Deep Learning Pipeline

但是我将关注的这些文章的是Deep Learning Pipelines。

https://github.com/databricks/spark-deep-learning

Deep Learning Pipelines是由Databricks创建的开源代码库，提供高级API以便使用Apache Spark对Python进行可伸缩深度学习。

这是一项非常棒的工作，在合并到官方API中之前不会很长时间，所以值得一看。

与我之前列出的相比，这个库的一些优点是：

1、延续Spark和Spark MLlib的精神，它提供了易于使用的API，通过几行代码，就可以进行深度学习。

2、它侧重于易用性和集成性，但不牺牲性能。

3、它由Apache Spark（也是主要贡献者）的创建者构建，因此它更有可能被合并为官方API。

4、它是用Python编写的，因此它将与所有着名的库集成在一起，现在它使用TensorFlow和Keras这两个主要的库来做DL

在下一篇文章中，我将全面关注DL pipelines库以及如何从头开始使用它。您将看到的一件事情就是在简单的Pipeline上进行Transfer Learning，如何使用预先训练好的模型来处理“少量”数据，并能够预测事情，以及如何通过使您创建的深度学习模型可用于SQL等等，从而为您公司中的每个人提供支持。

此外，我还将在Deep Cognition Platform上创建一个环境，从而可以在笔记本上使用此库工作，以便测试所有内容。如果您没有一个可用的帐户，请创建一个免费帐户：

http://deepcognition.ai/