CCAI2018演讲实录 | 戴金权：大规模数据分析及 AI 助力业务智能转型

会员服务 ·

CCAI2018演讲实录 | 戴金权：大规模数据分析及 AI 助力业务智能转型

2018 年 10 月 24 日 人工智能前沿讲习班

7月28-29日，由中国人工智能学会和深圳市罗湖区人民政府共同主办，马上科普承办的“2018中国人工智能大会（CCAI 2018）”完美收官。

大会第一天上午，英特尔高级首席工程师、大数据技术全球CTO戴金权作题为《大规模数据分析及AI助力业务智能转型》的主题演讲。

以下是根据速记整理的大会讲座实录。

戴金权英特尔高级首席工程师、大数据技术全球CTO

今天向大家介绍英特尔公司如何把大数据分析和深度学习技术相结合，构建类似于像BigDL、Analytics Zoo的大数据分析 + 人工智能平台，来帮助用户更方便地将深度学习、人工智能技术应用到现实场景中。

做这件事情的目标是什么？

为什么要做这件事情？

我们主要的出发点是构建一个技术和平台，帮助大量的大数据用户（不管他们是工程师、数据科学家、数据分析师，还是普通的IT人员）都可以更方便地将深度学习、人工智能技术应用到他们的大数据平台和大数据生态系统中。这也是因为有几个非常重要的技术，以及业界发展的趋势来驱动的。

第一个趋势：数据规模扩展，推动了深度学习的发展

今天深度学习之所以这么有效，是因为我们拥有了大量数据能够进行处理和分析。下图是Andrew在2016年“Machine learning yearning”这本书里的一幅图，可以很直观地看出随着数据规模的增长，我们可以构建更大型的、更复杂的深度学习神经网络，从而更好地利用这些数据来提高它的准确率，以及模型的有效性。

第二个趋势：Hadoop成为了“数据重力中心”

现实环境中的数据并不是标准化的，非常庞大、杂乱，也没有像标准化测试集那样很好的定义了数据。在过去十年期间，大家都建立了以Hadoop、Spark、HBase、Hive等Apache Hadoop生态系统为中心的数据存储、处理和分析平台。数据会从各种渠道进入企业组织，通过流水线汇聚到以Hadoop为标准的大数据平台中。从这个意义上说，任何数据处理和分析的框架、应用，包括深度学习的框架，都要能够很好地和以Hadoop为标准的大数据平台来交互。

第三个趋势：工业级机器学习/深度学习系统，是复杂的大数据分析流水线

今天大家可以看到非常多先进的深度学习、机器学习模型，它能够做很多突破性工作。如何将这样的模型、算法应用到现实的生产环境，以及工业级数据处理分析端到端的应用中，是需要非常多模块的。从数据的导入、数据的清洗、特征的提取、特征的转换，到模型的运行、训练、推理，最后把结果应用到实际的环境中，外加资源的管理、调度、分配等，都必须和现有的大数据处理的工作流整合在一起。

第四个趋势：统一大数据平台驱动分析与数据科学

Ion Stoica是UC Berkeley计算机教授，AMPLab 共同创始人，Spark、Mesos核心设计者。他在Spark Summit 2013 Keynote上做过一个比喻，5年前我们使用MP3、 Camera、GPS、telephone各种专用设备，现在只要一个智能手机就可以具备所有的功能。这不仅仅是方便，还可以在统一设备之后构建更多的新应用。

以Apache Hadoop和Spark为中心的统一大数据平台，实际包括了非常多的大数据开源生态系统组件，可以帮助用户很容易地在平台上进行数据分析，从而大大推动了大数据分析在各行各业的运用。

深度学习和大数据社区的断层

很明显地可以看到，今天人工智能和深度学习之间有很大的断层。深度学习顶尖研究人员在模型上不断有新突破，但数据科学家、数据分析师及普通的数据用户，却很难将这些模型应用到现实的生产环境中；在深度学习模型算法和大数据处理工作之间有很大的断层，这正是我们希望通过在大数据分析平台与AI平台相结合的工作能解决的问题。

如京东有大概几亿张的图片存储在分布式存储系统中，想要把这些图片从大数据集群里读出来，然后对它进行预处理。首先用SSD的模型来识别图片里有什么物品；再用深度学习DeepBit模型，将物品的特征提取出来；然后把结果存放回HDFS，以备下游的服务所使用。这是一个相对比较复杂的端对端数据处理的流水线，通过统一的大数据分析+AI平台，用户可以很方便地将这些新的大数据处理、分析和深度学习、人工智能技术整合在一起，大大提高运维的效率。

在生产环境中，我们的生产数据在大数据集群里可能有几千台，甚至几万台，如果为了进行深度学习，必须建立一个专用的集群和框架做深度学习的处理，如何把大量数据从几万台大数据集群中导入到深度学习的专用集群上，成了一个很大瓶颈。而在统一大数据分析+AI平台上，让深度学习的这些功能集成到现有的端到端大数据处理的流水线中，深度学习能够为大数据社区、数据科学社区更方便的使用，并可以使用他们已有的大数据框架和平台来开发新的深度学习的应用，或者在数据存储的集群上直接使用深度学习的技术来分析数据。

致力于这个目标，英特尔推出了开源BigDL

BigDL是一个面向Apache Spark的分布式深度学习框架，是Spark上的一个标准组件，可以在现有Hadoop和Spark的集群上直接运行，不需要对集群做任何修改，并能够和大数据、生态系统里不同的分析、处理组件非常好地整合在一起。BigDL与目前主流的深度学习框架Caffe、Torch、TensorFlow所能实现的功能相同。它的特点是构建在大数据集群上，为大数据集群所特别设计和优化；在单点上利用英特尔MKL、多线程编程等，比其他开源框架更快，可以得到很高的性能。同时利用Spark这样大规模分布式的Scale-out架构，可以很方便地进行分布式的训练和推理。BigDL是一个开源项目，可以在Github上搜索到。

BigDL的运行方式

BigDL是一个标准的Spark组件，当用BigDL开发一个深度学习应用时，直接运行在Spark集群上，不需要做任何改动。为了实现高性能，BigDL在每个Spark任务中都使用了Intel MKL和多线程编程。机器学习和深度学习是一个迭代式的计算，每个迭代都会运行一个标准的Spark作业，在里面会分布式地对这些数据进行训练。如做Gradient decent、做update，然后所有的Spark任务运行同样的模型，每个模型都只处理一部分数据，在迭代过程中所有数据成了一个batch，这里运行的是一个Minibatch SGD，它是一个Synchronous Minibatch SGD算法。

BigDL的分布式训练

Spark提供了分布式模型训练模型的方式，而且它的分布式训练并没有采用外部的系统来完成。现今领域要做data parallel Synchronous SGD，需要一些all reduce或 parameter server这样的架构支持这个工作。但是很多的实现需要在Spark框架上集成一个外部第三方的框架来完成，而我们直接使用Spark内部的大数据处理一些原语。大家都知道，大数据计算的模型是一个functional的计算，并采用copy-on-right，数据都是immutable，它还有像shuffle、broadcast等这样的操作提供给用户一个上层的计算。这些还和深度学习的原语颇不一样，我们的工作是利用Spark已有的一些原语，在内部直接构建一个all reduce的机制，从而可以在Spark上提供一个类似于像parameter server这样的架构，但没有引入任何第三方的框架和第三方的依赖，好处就是在现有的Spark集群上直接运行分布式的训练。例如，数学科学家并不是集群的管理人员，他没有权利在集群上安装任何东西，只能使用现有集群提供的服务，但他可以直接使用BigDL框架在Hadoop集群上，不做任何依赖地做相应深度学习分布式的训练。

BigDL的可扩展性

Cray是美国的一个做超级计算的公司，将BigDL集成到它的数据分析Urika-XC套件中，通过在各种节点计数下运行训练模型来研究BigDL在Cray XC超级计算机上的可扩展性，从4~256个节点都能获得接近线性的扩展性曲线，可以为其超级计算提供深度学习的功能。

Analytics Zoo

事实上，BigDL、TensorFlow这些框架与最终的AI应用还是有很大距离。我们在 Apache Spark和BigDL的基础上又构建了Analytics Zoo大数据分析和人工智的平台。某种意义上，它是Spark 和 BigDL的扩充，其目的是方便用户开发基于大数据端到端学习的应用，除了内置的模型和特征工程操作之外，里面还提供了大量的高级的流水线支持，能够使用Spark DataFrames、ML Pipelines的深度学习流水线，通过迁移学习的API 构建API模型的定义；在这个基础上就可以很方便地使用我们提供的Model Zoo模型，甚至端到端的参考应用，比如异常检测等；可以通过非常少的代码，使用这些高级的API，以及内置的模型，很方便地就能将一个端到端的大数据分析加上深度学习的应用构建起来。

比如可以直接在Spark SQL和DataFrame中嵌入大数据深度学习的模型，用户可以直接用Spark SQL和DataFrame写一个Query，这个Query可以直接使用深度学习的模型去判断照片是狗还是猫？也可以将Analytics Zoo里的模型，使用Model Serving API和其他大数据框架Flink、 Kafka、Storm、Web Service来整合。目前，Analytics Zoo和BigDL能在包括AWS、阿里云、百度云等几乎所有的公有云平台上使用。

生产化部署深度学习解决方案所面临的挑战

例如，在之前提到京东的案例里，如果使用单独的系统去做大规模的生产化部署，管理这样一个大规模分布式深度学习会非常复杂，也非常容易出错。你要做资源管理、数据的切分，出错的管理，这是第一个碰到的挑战；第二个问题是当你看应用的端到端性能时，从数据读取到数据处理再到运行模型直至把结果写回HDFS时，用GPU集群效率非常低下，从HBase读取图片就用了一半的时间。实上，系统中任何一个component都会成为瓶颈。当然从开发、运维的角度来讲，也是非常复杂的。

合作案例

在与京东的合作中，他们一开始是建立在多个GPU之上的，在Caffe上训练，但在开发、部署和性能方面都碰到问题。我们和京东的合作是将端到端的流程迁移到基于Spark的集群上，与之前用GPU的方案相比达到3~4倍效率的提升。

第二个案例和MLSListing合作。MLSListing是加州的不动产交易商，他们根据用户浏览的房屋图片，为用户推荐相似的房屋。这套系统构建在Microsoft Azure平台上，图片存储在Azure Storage，通过Hadoop、 Spark、BigDL，我们对图片进行处理分析；再将最终的结果存入HBase系统里；然后通过web service的API将这个服务提供给用户。

第三个案例与Cray公司合作，做短时的降水云图预测。通过Seq2Seq的模型，把过去1小时的卫星云图做一个时间序列，导入数据模型；然后预测下1个小时每10分钟这个卫星云图的变化，从而进行一些降水量的分析。

第四个案例与MasterCard的合作。他们有很多结构化、半结构化的交易数据，存放在Hive大数据文件系统里，除了查询功能外，希望为用户提供线下增值服务，增加用户与商家的匹配度。

本文获“中国人工智能学会”授权转载

历史文章推荐：

SFFAI 分享 | 李宏扬：二阶信息在图像分类中的应用

AI前沿学生论坛 | 朱时超：图神经网络模型及应用进展【附视频+PPT下载】

AI综述专栏|多模态学习研究进展综述

AI综述专栏|神经科学启发的人工智能

【AIDL专栏】陶建华：深度神经网络与语音（附PPT）

新任务引介 | Embodied Question Answering

AI综述专栏 | “博彩众长，自成一家”的神经机器翻译

登录查看更多

相关内容

戴金权

关注 0

戴金权现任英特尔高级首席工程师、大数据技术全球CTO，负责领导英特尔全球（位于硅谷和上海）的工程团队在高级大数据分析（包括分布式机器学习和深度学习）上的研发工作，以及和全球领先的研究机构（如UC Berkeley AMPLab、RISELab等）的技术合作。他是一位得到国际认可的，在大数据、云计算和分布式机器学习上的专家；他是O’Reilly AI Conference Beijing的联席主席, Apache Spark 项目的committer和项目管理委员会（PMC）委员，以及BigDL（基于Apache Spark的分布式深度学习框架 https://github.com/intel-analytics/BigDL/）项目创始人。

【硬核课】分布式深度学习，93页ppt概述最新DDL技术发展

专知会员服务

96+阅读 · 2020年6月8日

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

Python数据分析:过去、现在和未来，52页ppt

专知会员服务

103+阅读 · 2020年3月9日

《人工智能2020：落地挑战与应对》56页pdf

专知会员服务

197+阅读 · 2020年3月8日