【深度学习】云深度学习平台架构与实践的必经之路

2017 年 8 月 11 日 产业智能官 第四范式

7月15日，被《福布斯》杂志誉为“大数据运动的里程碑”的全球顶级大数据会议StrataData Conference在京召开。第四范式先知平台架构师陈迪豪受邀出席大会，并分享了云深度学习平台的架构与实践经验。

作为第四范式先知平台架构师，陈迪豪活跃于Openstack、Kubernetes、TensorFlow等开源社区，实现了Cloud Machine Learning 云深度学习平台，对如何进行云深度学习平台架构有着深厚积累。本次演讲中，他介绍了什么是云深度学习？在经过实践后，应该如何重新定义云深度学习？以及第四范式在这方面的应用和实践。以下文章根据现场演讲实录整理。

定义云深度学习平台

什么是云深度学习？随着机器学习的发展，单机运行的机器学习任务存在缺少资源隔离、无法动态伸缩等问题，因此要用到基于云计算的基础架构服务。云机器学习平台并不是一个全新的概念，Google、微软、亚马逊等都有相应的服务，这里列举几个比较典型的例子。

第一个是GoogleCloud Machine Learning Engine，它底层托管在GoogleCloud上，上层封装了Training、Prediction、Model Service等机器学习应用的抽象，再上层支持了Google官方的TensorFlow开源框架。亚马逊也推出了Amzonmachine learning平台，它基于AWS的Iaas架构，在Iaas上提供两种不同的服务，分别是可以运行MXNet等框架的EC2虚拟机服务，以及各种图象、语音、自然语言处理的SaaSAPI。此外，微软提供了Azure Machine Learning Studio服务，底层也是基于自己可伸缩、可拓展的Microsoft Azure Cloud服务，上层提供了拖拽式的更易用的Studio工具，再上面支持微软官方的CNTK等框架，除此之外微软还有各种感知服务、图象处理等SaaSAPI，这些服务都是跑在Scalable的云基础平台上面。

以上这些都是业界比较成熟的云深度学习平台，而在真实的企业环境中，我们为什么还需要实现CloudMachine Learning服务呢？首先国外的基础设施并不一定是国内企业可以直接使用的，而如果只是本地安装了TensorFlow，那也只能在裸机上进行训练，本地默认没有资源隔离，如果同时跑两个训练任务就需要自己去解决资源冲突的问题。因为没有资源隔离，所以也做不了资源共享，即使你有多节点的计算集群资源，也需要人工的约定才能保证任务不会冲突，无法充分利用资源共享带来的便利。此外，开源的机器学习框架没有集群级别的编排功能，例如你想用分布式TensorFlow时，需要手动在多台服务器上启动进程，没有自动的Failover和Scalling。因此，很多企业已经有机器学习的业务，但因为缺少CloudMachine Learning平台，仍会有部署、管理、集群调度等问题。

那么如何实现Cloud Machine Learning平台呢？我们对云深度学习服务做了一个分层，第一层是平台层，类似于Googlecloud、Azure、AWS这样的IaaS层，企业内部也可以使用一些开源的方案，如容器编排工具Kubernetes或者虚拟机管理工具OpenStack。有了这层之后，我们还需要支持机器学习相关的功能，例如Training、Prediction、模型上线、模型迭代更新等，我们在MachineLearning Layer层对这些功能进行抽象，实现了对应的API接口。最上面是模型应用层，就可以基于一些开源的机器学习类库，如TensorFlow、MXNet等。

整个CloudMachine learning运行在可伸缩的云服务上，包行了模型开发、模型训练，以及模型服务等功能，形成一个完整的机器学习工作流。但这并不是一个闭环，我们在实践中发现，线上的机器学习模型是有时效性的，例如新闻推荐模型就需要及时更新热点新闻的样本特征，这时就需要把闭环打通，把线上的预测结果加入到线下的训练任务里，然后通过在线学习或者模型升级，实现完整的机器学习闭环，这些都是单机版的机器学习平台所不能实现的。

打造云深度学习平台主要包含以下几个组件：首先是客户端访问的APIService，作为服务提供方，我们需要提供标准的RESTful API服务，后端可以对接一个Kubernetes集群、OpenStack集群、甚至是自研的资源管理系统。客户端请求到API服务后，平台需要解析机器学习任务的参数，通过Kubernetes或者OpenStack来创建任务，调度到后端真正执行运算的集群资源中。如果是训练任务，可以通过起一个训练任务的Container，里面预装了TensorFlow或MXNet运行环境，通过这几层抽象就可以将单机版的TensorFlow训练任务提交到由Kubernetes管理的计算集群中运行。在模型训练结束后，系统可以导出模型对应的文件，通过请求云深度学习平台的API服务，最终翻译成Kubernetes可以理解的资源配置请求，在集群中启动TensorFlowServing等服务。除此之外，在Google Cloud-ML最新的API里多了一个Prediction功能，预测时既可以启动在线Service，也可以启动离线的Prediction的任务，平台只需要创建对应的Prediction的容器来做Inference和保存预测结果即可。通过这种简单的封装，就可以实现类似Google Cloud-ML的基础架构了。

架构上进行了分层抽象，实现上也只需要三步。第一步是创建一个Docker镜像，下面的Dockerfile例子是从TensorFlow项目中截取出来的，官方已经提供了一个可以运行的Docker镜像，通过加入定制的启动脚本就可以实现开发环境、模型训练以及模型服务等功能。第二步是实现一个标准的API服务，下面是一个Python实现的实例，用户发送一个启动训练任务的请求，服务端可以解析请求的参数和内容，并将任务提交到Kubernetes等后端集群中。第三步是生成Kubernetes所需的文件格式，下面的JSON文件大家也可以在GitHub中找到，实现了将分布式TensorFlow任务提交到Kubernetes集群中运行。我们通过简单的三个配置就可以完成机器学习任务从本地到云端的迁移过程，也就是实现了CloudMachine Learning服务。前面提到云深度学习平台需要支持资源隔离和资源共享，这是如何实现的呢，其实Kubernetes本身就有这个抽象，用户可以在请求时申明需要的CPU、内存、甚至是GPU资源，通过cgroups、namespace等容器技术来实现资源隔离，而kube-scheduler实现了资源调度和资源共享等功能。实现自研或者公有云的CloudMachine Learning平台，开发者可以很容易提交训练任务、创建模型服务等，但在一个真实的机器学习场景中，只解决计算资源的隔离和调度是远远不够的，我们还需要重新思考如何集成数据处理、特征工程等问题。

重新定义云深度学习平台

TensorFlow是一个可用于深度学习的数值计算库，基于TensorFlow可以实现MLP、CNN、RNN等机器学习模型，但有了它是不是就不需要Spark呢？他们的关系是什么？在生产环境中，我们发现TensorFlow并没有完全取代已有的大数据处理工具，我们需要用Spark做数据分析和特征工程，还需要数据仓库等服务去存储和查询结构化数据。TensorFlow是一个非常优秀的深度学习框架，但在真实场景中用户还需要一些PowerGraph处理的图关系特征作为输入，这都是单独一个框架无法解决的。对于用户的建模流程如何组织、如何做数据清洗、如何做特征抽取、如何上线训练好的模型、如何预估模型效果，这些可以使用AzureML Studio工具去完成，而且是TensorFlow所缺乏的。前面我们介绍了Cloud Machine Learning，可以实现一个类似Google的分布式、高可用、带集群编排的计算平台，但这远远不够，因为我们还需要使用大数据处理的框架，包括MapReduce、流式处理、图计算等框架。TensorFlow只是整个机器学习流程里面做模型训练其中一部分，我们可能还需要Kubernetes做CPU、GPU的管理和调度。如果我们要完成一个机器学习的业务，就需要同时掌握TensorFlow、Spark、Hadoop、Hive、Kubernetes等框架的原理和应用，而不只是提供一个GoogleCloud-ML或者AWS服务就够了，这也是我们要重新定义Cloud Machine Learning的原因。

前面介客观上我们需要这么多知识，但主观上我们希望有什么呢？我们更希望有一个从数据处理到模型训练再到模型上线的一个全闭环服务，而不仅仅是机器学习框架或者通用计算平台，我们希望不写代码就可以做特征抽取的工作，我们希望机器学习的工作流是很容易描述的，而不需要通过编写代码的方式来实现，我们需要一个很灵活的基础架构可以支持各种异构的计算资源，我们希望平台是可拓展的可以实现自动Failover和Scaling。除了前面提到的Google、微软、亚马逊做的云机器学习平台，我们还需要从IaaS、PaaS、SaaS这多维度上提供使用接口，满足不同层次用户的使用需求，另一方面这应该是低门槛的产品服务，让任意的领域专家都可以轻易使用。后面我们会介绍在真实场景下如何改造CloudMachine Learning平台，并且介绍第四范式对外提供的低门槛、分布式、高可用的先知机器学习平台。

第四范式的云深度学习实践经验

第四范式先知平台是一个基于Cloud的全流程机器学习产品，用户通过Web登陆到先知平台就可以使用模型调研、预估服务的功能，并且可以通过拖拽的方式来描述机器学习的工作流。它的使用步骤如下，第一步是数据清洗，用户不需要写Spark代码而只需要拖拽出一个图标，我们称之为一个算子，然后就提交数据清洗任务了。然后，通过拖拽数据拆分算子，可以将数据集拆分为训练集和测试集两部分，其中一部分留在左边用于特征抽取。一般来说，用Spark、Mapreduce等开源工具也可以做特征抽取，但对编程技能和工程能力有一定的要求，我们希望通过定义特征抽取的配置或者脚本，让用户可以不写代码也可以实现对原始数据集的特征工程。然后，连接我们自主研发的GDBT、LR等模型训练算子，当然也可以基于开源的TensorFlow或者MXNet等框架实现算法。最后，经过模型训练得到模型文件后，用刚刚拆分出来的测试集进行模型预测，还可以使用通用的模型评估算子进行AUC、ROC、Logloss等指标的可视化展示。在先知平台上，用户只需要通过构建流程图的方式，就可以实现数据处理、模型训练等功能，真正解决真实场景下机器学习业务的问题。

先知平台主要解决以下几个目标场景：1. 简化数据引入，平台不要求数据必须使用分布式存储，也可以直接从RDBMS这类的SQL数据库中导入训练样本数据。2.简化数据拆分，用户不需要写Spark代码，只需要提供数据拆分后的存储路径，并且支持按比例拆分或者按规则拆分两种模式。3. 简化特征抽取，平台支持连续特征、离散特征的抽取和组合，对于连续特征支持自动化的多分桶算法，我们也会归纳常用的特征抽取方法并且封装成脚本或者配置，用户只需了解对应的配置而不需要自己编码实现具体的逻辑。平台还可以根据已有的特征配置自动进行特征组合拓展，提升模型效果。4. 简化模型训练，平台可以支持开源的机器学习算法实现和第四范式自主研发的超高维度LR算法，这个LR算法实现了Parameterserver可以解决几十亿、上百亿特征维度的高速分布式训练问题。对于学习率、正则化参数等可以做到自动调优。另外，平台还提供了线性分形分类器等扩展算法，可以无须人为干预的更加有效利用数值类特征。5. 简化模型评估，得到模型预估结果后，我们可以计算模型的ROC、Logloss、K-S等指标，不同模型计算指标的方式是类似的，用户就不需要重复编写实现代码，直接通过拖拽算子调用即可，以上都是先知平台所解决的问题。6.简化模型上线，对于常见的高维LR/GBDT模型，可以一键发布为线上服务实例，不仅简化了模型的部署和运维，而且上线实例还包括大部分的特征工程逻辑，无须手动再次开发特征处理逻辑的线上版本。

目前，先知平台已经成功应用于银行、金融和互联网等各行各业，基于“先知平台”的反欺诈模型能够帮助银行在毫秒级识别可疑交易，同时在新闻、视频、音频等内容推荐场景下，“先知平台”也成功大幅度提升关键业务指标。此外，在赋能企业利用机器学习升级运营效率的同时，更有意义的是，“先知平台”还极大地降低了机器学习的使用门槛。作为一个针对全流程机器学习业务的人工智能平台，先知封装了从数据处理、模型训练到模型上线和反馈更新的系统闭环，用户不再需要很强的编程技术和工程能力，领域专家和业务人员都可以通过推拽方式进行建模和上线，帮助企业快速实现从数据收集到业务价值提升的终极目标。

随着专利算法的不断更新，更加实时高效的极致工程优化，未来先知平台将进一步降低人工智能工业应用的门槛，帮助越来越多的企业享受人工智能服务。目前，先知平台试用版已经正式对外开放，欢迎扫描二维码注册使用。

第四范式功能介绍第四范式是国际领先的人工智能技术与服务提供商。基于自主研发的人工智能应用者开发平台，第四范式致力于解决AI应用门槛高的问题，为各行业量身打造人工智能解决方案，从而推动人工智能在不同行业的普及，并在金融、电信、互联网等行业已有百余个成功案例。

新一代技术+商业操作系统：AI-CPS OS

在新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生，在行业、企业和自身三个层面勇立鳌头。

数字化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置。

分辨率革命：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品控制、事件控制和结果控制。
复合不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊化：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。随着变革范围不断扩大，一切都几乎变得不确定，即使是最精明的领导者也可能失去方向。面对新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）颠覆性的数字化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位。

如果不能在上述三个层面保持领先，领导力将会不断弱化并难以维继：

重新进行行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建你的企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造新的自己：你需要成为怎样的人？要重塑自己并在数字化时代保有领先地位，你必须如何去做？

子曰：“君子和而不同，小人同而不和。” 《论语·子路》

云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。

在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。

云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

人工智能通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

新一代信息技术（云计算、大数据、物联网、区块链和人工智能）的商业化落地进度远不及技术其本身的革新来得迅猛，究其原因，技术供应商（乙方）不明确自己的技术可服务于谁，传统企业机构（甲方）不懂如何有效利用新一代信息技术创新商业模式和提升效率。

“产业智能官”，通过甲、乙方价值巨大的云计算、大数据、物联网、区块链和人工智能的论文、研究报告和商业合作项目，面向企业CEO、CDO、CTO和CIO，服务新一代信息技术输出者和新一代信息技术消费者。

助力新一代信息技术公司寻找最有价值的潜在传统客户与商业化落地路径，帮助传统企业选择与开发适合自己的新一代信息技术产品和技术方案，消除新一代信息技术公司与传统企业之间的信息不对称，推动云计算、大数据、物联网、区块链和人工智能的商业化浪潮。

给决策制定者和商业领袖的建议：

迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机
器智能，为企业创造新商机；
开发人工智能型企业所需新能力：员工团队需要积极掌握判断、沟通及创造
性思维等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多
样性的文化也非常重要。

新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。

重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）正在经历从“概念”到“落地”，最终实现“大范围规模化应用，深刻改变人类生活”的过程。

产业智能官 AI-CPS

用新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能驾驶”、“智能金融”、“智能城市”、“智能零售”；新模式：“案例分析”、“研究报告”、“商业模式”、“供应链金融”、“财富空间”。

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！

登录查看更多

相关内容

陈迪豪

关注 0

陈迪豪,第四范式先知平台架构师，负责深度学习框架产品化以及下一代特征引擎开发工作。积极参与了开源社区TensorFlow、Kubernetes、TVM等项目开发，对分布式系统和深度学习平台有一定了解，目前专注于离线在线一致性的特征引擎开发。

FPGA加速系统开发工具设计:综述与实践

专知会员服务

69+阅读 · 2020年6月24日

最新TensorFlow2.0机器学习实用指南—第二版（附279页pdf下载）

专知会员服务

278+阅读 · 2020年6月9日

【微软】深度学习概述，65页ppt，A gentle introduction to Deep Learning

专知会员服务

66+阅读 · 2020年5月17日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

机器翻译深度学习最新综述

专知会员服务

99+阅读 · 2020年2月20日

AAAI2019 Tutorial：可解释AI—人工智能的圣杯（160页PPT从理论到动机，应用和局限性）

专知会员服务

116+阅读 · 2020年1月13日

【课程】伯克利2019全栈深度学习课程（附下载）

专知会员服务

57+阅读 · 2019年10月29日

智能客服在腾讯游戏的实践，腾讯AI平台部智能客服方向技术负责人唐国华，第八届全国社会媒体处理大会SMP2019

专知会员服务

38+阅读 · 2019年10月24日

金融大数据平台建设实践，深圳证券信息有限公司数据中心张俊总监，第八届全国社会媒体处理大会SMP2019

专知会员服务

38+阅读 · 2019年10月24日

深度学习自然语言处理综述，266篇参考文献

专知会员服务

231+阅读 · 2019年10月12日

网易游戏海外AWS实践分享

高效开发运维

3+阅读 · 2019年5月21日

浅谈 Kubernetes 在生产环境中的架构

DevOps时代

11+阅读 · 2019年5月8日

像Google一样构建机器学习系统 - 在阿里云上搭建Kubeflow Pipelines

云栖社区

6+阅读 · 2019年5月1日

助力深度学习！阿里开源可插拔 GPU 共享调度工具

云栖社区

8+阅读 · 2019年3月5日

Java 工程师快速入门深度学习，可以从 Deeplearning4j 开始

人工智能头条

13+阅读 · 2018年12月14日

人工智能大数据平台中Golang的应用实践

MomentaAI

5+阅读 · 2018年9月27日

基于TensorFlow的深度学习实战

七月在线实验室

9+阅读 · 2018年4月25日

重磅干货-史上最全推荐系统资源分享

深度学习与NLP

8+阅读 · 2018年4月22日

人工智能 | 深度学习机装机流程与体验

沈浩老师

7+阅读 · 2018年1月7日

【人工智能架构】深度解密京东登月平台基础架构

产业智能官

11+阅读 · 2017年9月26日

Generating Question Relevant Captions to Aid Visual Question Answering

Arxiv

5+阅读 · 2019年9月9日

RAM: Residual Attention Module for Single Image Super-Resolution

Arxiv

9+阅读 · 2018年11月29日

Online Deep Metric Learning

Arxiv

8+阅读 · 2018年5月15日

Dialogue Learning with Human Teaching and Feedback in End-to-End Trainable Task-Oriented Dialogue Systems

Arxiv

6+阅读 · 2018年4月18日

Learning a Deep Listwise Context Model for Ranking Refinement

Arxiv

4+阅读 · 2018年4月16日

Blazingly Fast Video Object Segmentation with Pixel-Wise Metric Learning

Arxiv

6+阅读 · 2018年4月9日

End-to-End Video Captioning with Multitask Reinforcement Learning

Arxiv

5+阅读 · 2018年3月21日

Piecewise Flat Embedding for Image Segmentation

Arxiv

3+阅读 · 2018年2月12日

SSD: Single Shot MultiBox Detector

Arxiv

5+阅读 · 2016年12月29日

Caffeinated FPGAs: FPGA Framework For Convolutional Neural Networks

Arxiv

10+阅读 · 2016年9月30日

VIP会员