【深度学习】英特尔BigDL设计思路解析：落地深度学习要具备工业级大数据分析流水线

2017 年 9 月 4 日 产业智能官 木环大数据杂谈

作者｜木环

深度学习蓬勃发展，开源界已有 Caffe，MXNet，TensorFlow，Theano，Torch 等主流框架；英特尔也开源了分布式深度学习库 BigDL，它的特点是可以直接运行在现有的 Apache Spark 或 Hadoop 集群之上，并且其目标人群更偏向于大数据分析师们。InfoQ 曾经撰文《 Intel 开源深度学习库 BigDL：Non GPU on Spark》和《 Intel 开源了基于 Apache Spark 的分布式深度学习框架 BigDL》，上个月 InfoQ 走进英特尔亚太研发有限公司，进一步学习和了解了 BigDL，并对英特尔公司软件与服务事业部副总裁、系统技术及优化部门总经理 Michael Greene 和英特尔资深首席工程师、大数据技术全球 CTO 戴金权进行了采访，主要内容整理如下。

大数据是深度学习的序曲

数据规模的扩展推动了深度学习的发展。如下图 Andrew Ng 在《Machine Learning Yearning》一书中展示的图。当达到一定的数量后，传统算法的性能不再随着数量而获得提升；但是，大中型神经网络计算的性能依然会持续提升，并且与传统算法的性能优势差距越来越大。

随着 Hadoop 兴起和发展，如今 Hadoop 已经成为了“数据重力中心”（Center of Data Gravity），这为深度学习的研究奠定基础。Google 曾经在 2015 年 NIPS（Conference and Workshop on Neural Information Processing Systems，神经信息处理系统大会）上发表《Hidden Technical Debt in Machine Learning Systems》的演讲中表示，为了支撑机器学习和深度学习，需要做大量工作即搭建工业级复杂的大数据分析流水线。

幸运的是，开源社区中的 Apache Hadoop/Spark 平台推动大数据分析进入了民主化时代。Spark 成为了业内进行大数据处理分析的主流计算框架，里面有非常多不同的组件提供各种各样的丰富的功能，从 SQL 的查询、流式的处理、机器学习、图像计算等等。

那么怎样才能让人工智能继大数据之后变成下一个民主化的技术浪潮呢？需要更易用、高效扩展、更低的成本和卓越的性能。

在戴金权看来，一方面深度学习社区每周都有新的技术突破，这非常令人激动并且也受到广泛关注；而另一方面，在真实的生产环境中“沉默的大多数”，事实上数据工程师们才是重度数据分析处理的大多数。不过，深度学习和大数据的社区是不完全匹配的，虽然数据工程师们不是深度学习专家，但是深度学习其他现有的软件框架、硬件架构并不友好，使用起来非常麻烦。简而言之，数据工程师们关心的是怎样更方便地适配到生产开发环境，并且真正应用解决问题（而不是 demo 的层面）。

BigDL 技术概览

初衷：基于已有 IT 格局，重点面向大数据从业者

BigDL 是英特尔在 Spark 上构建的一个面向 Apache Spark 的开源、分布式的深度学习框架，目标人群是大数据用户和数据科学家，其设计初心是为了让这些人更方便地应用深度学习，因此使用时无需修改、直接运行在现有 Hadoop/Spark 集群。

BigDL 的设计出发点：可以重用现有的工具和基础架构；充分利用 Hadoop/Spark 集群上存储的数据，在大数据（Spark）程序或工作流之中增加深度学习功能。BigDL 是在已定的 IT 技术栈之上，增加了对深度学习的支持，可以进行如数据清洗、数据仓库、特征工程、机器学习、图分析等应用。

BigDL 的一些特性

源码地址 https://github.com/intel-analytics/BigDL，http://software.intel.com/bigdl目前 BigDL 对深度学习支持如下：

张量，层：超过 100 个（线性，卷积 Conv2D、Conv3D，降维，循环）
损失函数：数十个
优化算法：SGD、Adagrad、Adam、Adamax、RMSProp、Adadelta
分布式训练 / 推理
保存和加载模型文件：包括 Torch、Caffe、TensorFlow

Spark 可以做很多事情，它提供的 API 相当于一个平台，BigDL 与其结合使用可以在非常大的数据规模上面做如 SQL Streaming 等一些传统的数据分析工作。

目前比较全面支持 Scala 和 Python 两个语言。由于 Java 与 Scala 都运行在 JVM 上，两者之间基本能做到无缝的集成，即支持 Scala 就意味着支持了工程师们的语言 Java；而 Python 是数据分析师们的语言。

上图展示了对 Python 的支持和使用方法。基于 PySpare，开发者们可以通过 BigDL 中的 Python API 调用常见的 Python 库，如 Numpy、Scipy、Pandas、Scikit-learn、Matplotlib 等。

同时，BigDL 的使用可以是单机、集群也可以是云，更换环境只需要修改几行配置代码即可。

在各方面的使用上，BigDL 都是 Real out of box，不需要安装依赖包等。只要可以运行 Spark 的环境就可以运行 BigDL，堪称无痛使用。

除了 Hadoop/Spark 集群之外，BigDL 还可以运行于其他大数据分析平台与公有云之上，如 AWS、Azure、Alibaba、CDH 与 Cloudera、Databricks、Mesos 等。以 AWS 为例，两者合作将 BigDL 共同部署到 AWS EC2 上，同时 BigDL 又与 AWS EMR（Elastic MapReduce）直接继承，直接对使用者屏蔽集群的概念。

戴金权称 BigDL 本质上是一个标准的 Spark 应用，只要一个标准的 Hadoop / Spark 集群或者提供标准 Hadoop / Spark 服务的云就能运行。对于使用者而言，BigDL 的使用类似与自行编写一个 Spark 应用。

BigDL 0.1 于 2017 年发布，Intel 称其提高了深度学习在数据科学家中的易用性：

Python API 的支持
Jupyter Notebook 的支持
TensorBoard 可视化的支持
更完备的 RNN (Recurrent Neural Network) 的支持
更健壮、更易扩展的大规模分布式训练

即将发布的 0.2.0 版本将包括：

Functional API 的支持（类似 Keras）
TensorFlow 模型导入和定义的支持
Spark ML Pipelines 的原生支持
Python 包（pip 安装）以及 Windows 平台的支持
导出模型到 Caffe、TensoFlow 或本地 JVM 运行
更高级的神经网络的支持

Bi-directional RNN, tree LSTM, Convolutional LSTM, 3D Convolution & pooling, 等等

落地：光有模型并不足够，要搭建端到端流水线

英特尔技术专家告诉 InfoQ，现在 BigDL 已经被使用到生产环境中，规模因用户情况而异，集群节点可能是几个、十几个或几十个等；还有一些用户可能会上百，比如 eBay 有大概两百多节点。

下图是工业制造中的产品缺陷检测：

2015 年，中国银联电子商务与电子支付国家实验室联合英特尔开展了基于神经网络的线上欺诈交易侦测模型研究。基于 Spark 的 ML Pipeline 进行机器学习流程的构建，采用英特尔 BigDL 分布式深度学习库提供的神经网络算法进行模型的训练与测试。

其实大部分银行本身都有一套欺诈交易侦测系统，只是研发程度不尽相同：有的是制定规则，例如个人短时间连续消费不能超过多少笔；有的是做决策。英特尔称其利用 BigDL 进行深度学习训练了 10-20 个独立的神经网络模型，经过 Bagging 集成测算比现有系统的准确率更高。

BigDL vs 其他深度学习框架

BigDL 和其他的深度学习框架其中一个不一样的地方是，它是专门为这样的大数据的运行环境所优化。一方面它在单点上利用英特尔的 MKL 库，多线程编程等等，可以得到非常高的性能。同时又充分利用了 Spark 架构，可以很方便在集群上进行横向扩展，可以很方便地跑在几十个甚至上百个节点上。

但是同时英特尔表示，BigDL 也会与 Spark ML 整合。一方面是因为 Spark ML 可以在分布式机器学习和数据科学中非常广泛的使用；另外一方面的原因 BigDL 本身就是构建在 Spark 之上的深度学习库，因此需要与原生的 Spark ML pipelines 进行整合。此外，还可以把 BigDL 模型导出到 Caffe、TensorFlow、Torch，开发者们甚至可以把它作为一个本地的 Java 程序在本地的 JVM 运行，与所有的 JVM 编程框架（如 Storm）结合使用。未来，还会有更多高级的神经网络支持，如双向 RNN、递归网络；增强 3D 图片处理能力。

谈谈大数据、云计算与人工智能

在戴金权看来，人工智能是一个比较宽泛的概念，一些规则系统、推理系统都算作早期的人工智能，这些年人工智能的发展很大程度是用深度学习、机器学习构建学习系统，扩建模型等。而这样的情况下，需要统一的大数据平台作为机器学习、深度学习应用的支撑；算法和模型固然重要，但是构建工业级的系统应用，就需大数据分析的整个平台。

从某种程度上来说，大数据平台和云计算架构非常类似，不管是基于公有云还是企业内部自建的平台，都需要横向扩展，实现资源调度和分享等。在很多云厂商的云计算服务中，数据存储、大数据的分析是非常重要的组成部分；而企业内部构建云也需要重点考虑如何构建数据的平台。

结语

英特尔称，打造 BigDL 的主要心力是在 Spark 大数据平台上能够更快、更容易应用深度学习解决方案，不仅仅是止步于设计一个深度学习框架。基于 Spark 平台而建的好处，是 BigDL 可以与其他组件方便地交互。

BigDL 支持整个 Hadoop 生态圈内各种功能组件，如管理机器、引入数据、存储数据及分析工具等，并且支持不同开发语言。同理，英特尔称也希望将 BigDL 更方便地嵌入已有大数据生态中，使研发变得更方便，从而达到“深度学习民主化”。

英特尔在人工智能方面做了非常多的工作，端到端的人工智能的工作，从硬件层到软件，再到上层的各种各样的应用体验。包括从数据中心端到设备端，这样的端到端的人工智能工作。目标就是为了能够更好地推动人工智能计算的民主化，让更多人，让各行各业更方便、更快地使用人工智能技术。

—— 戴金权

QA 问答

InfoQ：相比其他开源项目，BigDL 有没有待改进的地方？英伟达专注于 GPU，谷歌主攻 TPU，当前的情况会不会给你们带来一定的发展局限？

戴金权：首先，英特尔目前专注的目标就是希望能够在现有大数据的集群上性能最好，所以我们主要集中在大规模的基于至强处理器的集群上进行优化。如果你今天去看所有大数据的集群，大都是这样的生产环境。当然，英特尔致力于很多硬件加速、硬件优化方面的工作，例如我们之后会有从某种程度来说更偏向于 ASIC 这样的一些产品，我们也会在之后把这些支持和优化加进来，只是说这可能是我们下一步工作的方向。

InfoQ：大数据或者深度学习，如果以后分析到很关键的数据，安全问题怎么考虑？鉴于攻击行为越来越多，英特尔在这方面有什么样的考虑？

戴金权：我觉得目前面临几方面的问题，大数据方面的安全本身就是一个非常重要的课题，英特尔在大数据安全方面，包括英特尔，包括英特尔和 Cloudera 合作，我们在开源社区里面有非常多的考虑。大家如果关注到的话，在 Hadoop 整个生态系统里，除了有数据处理，其实还有很多数据安全，数据如何管理的项目，以更好的来提供数据保护，这其实是英特尔一直做的事情。

InfoQ：现在人工智能等等不同的技术发展趋势很热门，英特尔如何看待？

Michael Greene：就像你所说的，我在英特尔和整个软件行业从事多年，这么多年以来英特尔研发软件的方式和方法从来没有变过，就是永远基于客户的需求，并为他们带来能够切实的解决方案。对我们来说，客户的需求永远是第一位的，这也是为什么我们会一直非常紧密的跟踪他们的需求，当然在这个过程中我们也会更紧密地追踪整个软件行业发展的趋势。人工智能和机器学习不仅是目前行业的趋势，也是绝大多数客户需求的技术方向，我们的客户都在向我们提出要求，希望能够有更好的认知引擎，能够有更好的产品定位，希望从大数据当中更快更好的获得洞察。这也是英特尔去开发、调整、升级软件的一个基础，是希望能够尽我们所能为客户带来最好的客户体验。今天戴金权肯定也为你们介绍了我们相关的软件和开发，包括最新的 BigDL，BigDL 的一个初衷就是希望能够让客户用更简单和高效的方式运用他们的大数据，做更好的分析性的解决方案。

InfoQ：英特尔之前给大家的印象是一家聚焦于硬件的公司，现在能说软件对于英特尔而言也越来越重要了吗？

Michael Greene：事实上一直以来软件对于英特尔都是非常重要的，因为软件对于我们客户是非常重要的，所以对于我们也是非常重要的。最早开始我们就寻求很多不同的方式去和软件开发商合作，比如最早在 PC 端，微软和开源社区 Linux 都是我们的合作伙伴，后来软件开发的重心从 PC 端迁移到云、数据中心，还有您提到的机器学习和 AI，我们也会跟随这样的趋势，我们的软件开发也会有这样的重心的迁徙。

所以我还是要强调，软件对英特尔来说一直是非常重要的。当我们的客户或者我们的用户来买我们的处理器，不管是至强还是凌动，买的不是硅晶片，而是需要上面的软件能够运行。所以我们一直说英特尔的生命就在于软件和硬件的结合，这也是我们的热情所在，也是一直以来我们追寻的方向。

Intel开源深度学习库BigDL：Non GPU on Spark

Intel开源了基于Apache Spark的分布式深度学习框架BigDL。BigDL借助现有的Spark集群来运行深度学习计算，并简化存储在Hadoop中的大数据集的数据加载。

BigDL适用的应用场景主要为以下三种：

直接在Hadoop/Spark框架下使用深度学习进行大数据分析（即将数据存储在HDFS、HBase、Hive等数据库上）；
在Spark程序中/工作流中加入深度学习功能；
利用现有的 Hadoop/Spark 集群来运行深度学习程序，然后将代码与其他的应用场景进行动态共享，例如ETL（Extract、Transform、Load，即通常所说的数据抽取）、数据仓库（data warehouse）、功能引擎、经典机器学习、图表分析等。

运行于Spark集群上

Spark是被工业界验证过的，并有很多部署的大数据平台。BigDL针对那些想要将机器学习应用到已有Spark或Hadoop集群的人。

对于直接支持已有Spark集群的深度学习开源库，BigDL是唯一的一个框架。

BigDL可以直接运行在已有Spark集群之上，和Spark RDD, DataFrame/DataSet直接接口，不需要额外的集群数据加载，从而大大提高从数据抽取到深度学习建模的开发运行效率。用户不需要对他们的集群做任何改动，就可以直接运行BigDL。BigDL可以和其它的Spark的workload一起运行，非常方便的进行集成。

BigDL库支持Spark 1.5、1.6和2.0版本。BigDL库中有把Spark RDDs转换为BigDL DataSet的方法，并且可以直接与Spark ML Pipelines一起使用。

Non GPU on Spark

BigDL目前的测试结果是基于单节点Xeon服务器的（即，与主流GPU相当的CPU），在Xeon上的结果表明，比开箱即用的开源Caffe，Torch或TensorFlow速度上有“数量级”的提升，最高可达到48倍的提升（Orders of magnitude ，up-to 48X today）。而且能够扩展到数十个Xeon服务器。

为什么创建一个默认情况下不使用GPU加速的深度学习框架？对于英特尔来说，它是促进下一代CPU机器学习的策略的一部分。

Spark传统上不是一个GPU加速的产品，虽然目前IBM和Databricks（于去年底）有在自己的集群上增加支持GPU加速的Spark服务；其实使用GPU也将是一种趋势。从另一方面来说，BigDL是给开发者的一个福利，理论上，使用现有软件会比移植到GPU架构上的工作量小很多。比如说英特尔采用GPU-a PCIe附加卡的形式封装了Xeon Phi处理器，由Xeon Phi插件卡组成的系统可以通过简单地更换或添加卡来升级或扩展，而不用更换整个机架。

性能上的优化措施

与使用GPU加速来加速过程的其他机器学习框架不同，BigDL使用英特尔数学内核库（Intel MKL）来得到最高性能要求。在性能提高策略上，它还针对每个Spark task使用了多线程编程。

对于模型训练，BigDL使用了在多个执行器中执行单个Spark任务的同步小批量SGD（Stochastic Gradient Descent）。每个执行器运行一个多线程引擎并处理一部分微批次数据。在当前版本中，所有的训练和验证数据都存储到存储器中。

BigDL使用Scala开发，并参考了Torch的模型。像Torch一样，它有一个使用Intel MKL库进行计算的Tensor类。Intel MKL（Math Kernel Library）是由一系列为计算优化过的小程序所组成的库，这些小程序从FFT（快速傅立叶变换）到矩阵乘法均有涉及，常用于深度学习模型训练。Module是另一个从Torch借鉴而来的概念，它的灵感来自Torch的nn package。Module代表单独的神经网络层、Table和Criterion。

易用性上的优化

BigDL的API是参考torch设计的，为用户提供几个模块：

Module：构建神经网络的基本组件，目前提供100+的module，覆盖了主流的神经网络模型。
Criterion：机器学习里面的目标函数，提供了十几个，常用的也都包含了。
Optimizer：分布式模型训练。包括常用的训练算法（SGD，Adagrad），data partition的分布式训练。

用户只需定义好模型和目标函数，就可以放到Optimizer里面去训练。对于数据预处理，BigDL提供了一个叫Transformer的接口封装，并且提供了很多图像、自然语言处理方面的预处理算法的实现。另外还提供很多示例程序，让用户了解怎么使用BigDL。例如怎么训练模型，怎么和Spark其它模块一起工作。

BigDL提供了一个AWS EC2镜像和一些示例，比如使用卷积神经网络进行文本分类，还有图像分类以及如何将在Torch或Caffe中预训练过的模型加载到Spark中进行预测计算。来自社区的请求主要包括提供对Python的支持，MKL-DNN（MKL的深度学习扩展），faster-rcnn，以及可视化支持。

新一代技术+商业操作系统：

AI-CPS OS

在新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生，在行业、企业和自身三个层面勇立鳌头。

数字化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置。

分辨率革命：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品控制、事件控制和结果控制。
复合不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊化：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。随着变革范围不断扩大，一切都几乎变得不确定，即使是最精明的领导者也可能失去方向。面对新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）颠覆性的数字化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位。

如果不能在上述三个层面保持领先，领导力将会不断弱化并难以维继：

重新进行行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建你的企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造新的自己：你需要成为怎样的人？要重塑自己并在数字化时代保有领先地位，你必须如何去做？

子曰：“君子和而不同，小人同而不和。” 《论语·子路》

云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。

在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。

云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

人工智能通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

新一代信息技术（云计算、大数据、物联网、区块链和人工智能）的商业化落地进度远不及技术其本身的革新来得迅猛，究其原因，技术供应商（乙方）不明确自己的技术可服务于谁，传统企业机构（甲方）不懂如何有效利用新一代信息技术创新商业模式和提升效率。

“产业智能官”，通过甲、乙方价值巨大的云计算、大数据、物联网、区块链和人工智能的论文、研究报告和商业合作项目，面向企业CEO、CDO、CTO和CIO，服务新一代信息技术输出者和新一代信息技术消费者。

助力新一代信息技术公司寻找最有价值的潜在传统客户与商业化落地路径，帮助传统企业选择与开发适合自己的新一代信息技术产品和技术方案，消除新一代信息技术公司与传统企业之间的信息不对称，推动云计算、大数据、物联网、区块链和人工智能的商业化浪潮。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发人工智能型企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。

重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）正在经历从“概念”到“落地”，最终实现“大范围规模化应用，深刻改变人类生活”的过程。

产业智能官 AI-CPS

用新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能驾驶”、“智能金融”、“智能城市”、“智能零售”；新模式：“案例分析”、“研究报告”、“商业模式”、“供应链金融”、“财富空间”。

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！

登录查看更多

相关内容

Spark

关注 51

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

【硬核课】分布式深度学习，93页ppt概述最新DDL技术发展

专知会员服务

96+阅读 · 2020年6月8日

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

斯坦福2020硬课《分布式算法与优化》

专知会员服务

123+阅读 · 2020年5月6日