【企业大脑】深入Facebook机器学习部门：服务、模型、框架和硬件

2017 年 12 月 20 日 产业智能官 新智元

新智元编译

来源：research.fb.com

作者：Kim Hazelwood et al.

编译：刘小芹

【新智元导读】近日 Facebook 研究团队公开一篇 HPCA 2018 论文，作者包括 Caffe 作者贾扬清等人，深度揭示了 Facebook 内部支持机器学习的硬件和软件基础架构。Facebook 的几乎所有的服务都广泛应用机器学习，其中计算机视觉只占资源需求的一小部分。此外，Facebook 依赖多种机器学习方法，包括但不限于神经网络。硬件方面，用CPU 做推理，CPU 和 GPU都用于训练，并且进行大规模分布式训练。

论文地址：https://research.fb.com/wp-content/uploads/2017/12/hpca-2018-facebook.pdf

机器学习是 Facebook 的许多重要产品和服务的核心。这篇文章描述了 Facebook 在全球范围里支持机器学习的硬件和软件基础架构。Facebook 的机器学习工作负载非常多样化：在实践中，不同的服务需要多种不同类型的模型。这种多样性对系统堆栈里的所有层都有影响。此外，在 Facebook 上存储的大部分数据都是通过机器学习流程传输的，这在向高性能分布式训练流交付数据方面提出了严峻的挑战。计算需求也很大，需要利用GPU和CPU平台进行训练，并将大量CPU容量用于实时推理。解决这些问题以及其他层出不穷的新挑战需要各方面的努力，包括机器学习算法、软件和硬件设计。

为20亿用户提供机器学习服务，Facebook如何处理计算和数据

截至2017年12月，Facebook 的用户已经超过20亿人。过去几年中，机器学习被应用于这个大规模的实际问题，形成了机器学习算法创新的良性循环，为模型提供了大量训练数据，并在高性能计算机体系结构的助力下取得进步。在 Facebook 上，机器学习提供了几乎所有用户体验方面的关键能力，包括News Feed，语音和文本翻译，照片和实时视频分类等。

Facebook 在这些服务中利用了各种各样的机器学习算法，包括支持向量机，梯度提升决策树和许多类型的神经网络。本文将描述在 Facebook 上支持机器学习的数据中心基础架构的几个重要方面。基础架构包括内部的“ML-as-a-Service”流，开源机器学习框架和分布式训练算法。从硬件角度来看，Facebook 利用大量的 CPU 和 GPU 平台来训练模型，以便在所需服务延迟时间内支持必要的训练频率。对于机器学习推理，Facebook 主要依靠 CPU 来处理所有神经网络排名服务的主要功能，例如 News Feed，这些服务占据了所有计算负载的大部分。

Facebook 通过机器学习流程将所有存储数据的很大一部分汇集起来，而且这个比例随着时间的推移不断增加，从而提高模型质量。机器学习服务所需的大量数据对 Facebook 数据中心的全球规模提出了挑战。有几种技术被用来高效地向模型提供数据，包括数据馈送和训练的解耦，数据/计算协同定位和网络优化。与此同时，Facebook 的规模也提供了独特的机会。在非高峰期间，日负载周期为分布式训练算法提供了大量可用的CPU。Facebook 的计算fleet遍布10个数据中心，规模也提供了灾难恢复能力。灾难恢复规划是很重要的，因为及时交付新的机器学习模型对于 Facebook 的运营非常重要。

展望未来，Facebook 预计在现有的功能以及新的服务上，机器学习都将快速增长。对于部署这些服务的基础架构的团队来说，这种增长意味着更多挑战。尽管在现有平台上优化基础架构有好处，但我们仍然在积极评估和创建新的硬件解决方案，同时保持算法创新。

关于 Facebook 的机器学习的主要见解：

机器学习在 Facebook 的几乎所有的服务中都有广泛应用，计算机视觉只占资源需求的一小部分。
Facebook 依赖多种机器学习方法，包括但不限于神经网络。
大量数据都是通过机器学习流程传送，而这会在计算节点之外造成工程和效率方面的损失。
Facebook 目前在很大程度上依赖 CPU 做推理，CPU 和 GPU 都用于训练，但从性能功耗比的角度看，它不断对新的硬件解决方案进行原型设计和评估。
Facebook 的全球用户规模以及相应的日活动模式导致大量的机器可以用于机器学习任务，例如大规模分布式训练。

Facebook 上的机器学习

机器学习（ML）是指产品利用一系列输入来构建一个调优模型的实例，并利用该模型创建表示、预测或其他形式的有用信号。

图1表示了这个过程，由以下步骤组成，依次执行：

1）建立模型的训练阶段。这个阶段通常是离线执行的。

2）在生产中运行训练模型的推理阶段，并进行一个（一组）实时预测。这一阶段是在线执行的。

Facebook 上机器学习的一个显着特点是受到可能用于训练模型的海量数据的影响。这个数据的规模会产生很多英雄，涉及整个基础架构。

利用机器学习的主要服务：

Facebook 的大部分产品和服务都利用机器学习，包括：

News Feed：排名算法让用户每次访问 Facebook 时首先看到与他们最为相关的故事。
广告（Ads）：利用ML来向用户定向显示广告。

搜索：在各种垂直领域提供专门的子搜索，例如视频、照片、人物、事件等等。
Sigma：一个通用的分类和异常检测框架，用于各种内部应用，包括站点完整性，垃圾邮件检测，支付，注册，未经授权的员工访问以及事件推荐。
Lumos：从图像及其内容中提取高级属性和嵌入，使算法能够自动理解图像。
Facer：是 Facebook 的面部检测和识别框架。
语言翻译：用于 Facebook 的内容国际化服务。
语音识别：是将音频流转换成文本的服务。

除了上面提到的主要产品之外，还有更多的长尾服务利用各种形式的机器学习。产品和服务的长尾数量达数百个。

机器学习模型

所有基于机器学习的服务都使用“特征”（或输入）来产生量化输出。在 Facebook 上使用的机器学习算法包括 Logistic回归（LR），支持向量机（SVM），梯度提升决策树（GBDT）和深度神经网络（DNN）。LR和SVM是用于训练和使用预测的有效方法。GBDT可以通过额外的计算资源来提高准确性。DNN是最具表现力的，可能提供最高的准确性，但是利用的资源也最多（至少比LR和SVM等线性模型需要的计算量多一个数量级）。这三种类型都对应具有越来越多的自由参数的模型，这些模型必须通过对有标签的输入样本预测精度进行优化来训练。

在深度神经网络中，有3个常用的类：多层感知器（MLP），卷积神经网络（CNN）和递归神经网络（RNN / LSTM）。MLP网络通常用于结构化输入特征（通常是排名），CNN作为空间处理器使用（通常用于图像处理），而RNN / LSTM网络是序列处理器（通常用于语言处理）。表1说明了这些ML模型类型和对应的产品/服务。

表1：利用机器学习算法的产品/服务

Facebook 里的 ML-as-a-Service

Facebook 有一些内部的平台和工具包，旨在简化产品中利用机器学习的任务。主要包括FBLearner，Caffe2 和 PyTorch。FBLearner 是三个工具的suit，每个工具都专注于机器学习流程的不同部分。FB Learner 利用内部作业调度程序在共享的 GPU 和 CPU 池上分配资源和调度作业，如图1所示。Facebook上的大多数ML训练都是通过FBLearner平台运行的。这些工具和平台一起工作，旨在提高ML工程师的效率，帮助他们专注于算法创新。

FBLearner Feature Store：Feature Store 本质上是一个可用于训练和实时预测的几个特征生成器的目录（catalog），它可以作为一个marketplace，多个团队可以使用它来共享和发现特征。
FBLearner Flow：是 Facebook 的机器学习平台，用于模型训练。
FBLearner Predictor：是 Facebook 的内部推理引擎，它使用在 Flow 中训练的模型来实时提供预测。

深度学习框架

对于深度学习，Facebook 使用两个截然不同但协同作用的框架：针对研究优化的 PyTorch，以及针对生产优化的 Caffe2。

Caffe2：是 Facebook 的内部生产框架，用于训练和部署大规模机器学习模型。Caffe2 专注于产品所需的几个关键特性：性能，跨平台支持，以及基本机器学习算法的覆盖范围，例如卷积神经网络（CNN），递归神经网络（RNN）和多层感知器（MLP）等，这些算法具有稀疏或密集的连接，高达数百亿的参数。Caffe2 的设计涉及模块化方法，在所有后端实现（CPU，GPU和加速器）之间共享统一的图形表示。独立的执行引擎为不同的图形执行需求提供服务，Caffe2 在不同的平台上引入第三方库（例如，cuDNN，MKL 和 Metal），以在不同平台上实现最佳运行时间。
PyTorch：是 Facebook 在AI研究领域的首选框架。它有一个前端，侧重于灵活性，debug和动态神经网络，以进行快速实验。
ONNX：全称Open Neural Network Exchange（开放神经网络交换格式），是一种以标准方式表示深度学习模型的格式，以实现跨不同框架的互操作性。

Facebook 上机器学习的硬件资源

（详细解析见论文原文）

图2：基于CPU的计算服务器

图3：Big Basin GPU服务器设计，包括一个3U机箱的8个GPU。

表2：用于各种工作负载的脱机训练使用的频率、持续时间和资源。

表3：在线推理工作负载的资源需求。

图4：2017年9月19日的24小时里，Facebook的所有fleet的日负荷。

结论

基于机器学习的工作负载越来越重要，其影响涵盖了系统堆栈的所有部分。对此，计算机体系结构界对如何最好地应对已经出现的挑战表现出越来越大的关注。虽然以前的工作围绕有效地处理ML训练和推理的必要计算而展开，但是考虑到在解决方案被大规模应用时出现的额外挑战，情况会改变。

在 Facebook，我们发现了几个关键因素，这些因素在我们的数据中心基础架构的设计过程中起决定性作用：数据与计算机协同定位的重要性，处理各种ML工作负载的重要性，不仅仅是计算机视觉，以及由于日计算周期的闲置容量而产生的机会。我们在设计开源硬件的端到端解决方案时，考虑了上述每个因素，以及平衡性能和可用性的开源软件生态系统。这些解决方案为今天服务超过21亿人的大规模机器学习工作负载提供了强大的动力，同时也反映了机器学习算法和系统设计方面专家的跨学科努力。

论文下载：https://research.fb.com/wp-content/uploads/2017/12/hpca-2018-facebook.pdf

五年之后，你的企业是拥抱AI，还是已被淘汰「AI传媒俱乐部」

过去 20 多年，互联网及移动互联网将人类带到了一个全新的时代，如果用一个词来总结和概括这个时代的话，「连接」这个词再合适不过。这个时代主要建立了四种连接：第一，人和商品的连接；第二，人和人的连接；第三，人和信息的连接；第四，人和设备的连接。

智能对话交互框架

典型的智能对话交互框架如图 1 所示。其中，语音识别模块和文本转语音模块为可选模块，比如在某些场景下用户用文本输入，系统也用文本回复。自然语言理解和对话管理是其中的核心模块，广义的自然语言理解模块包括对任务类、问答类和闲聊类用户输入的理解，但在深度学习兴起后，大量端到端（End-to-End）的方法涌现出来，问答和聊天的很多模型都是端到端训练和部署的，所以本文中的自然语言理解狭义的单指任务类用户输入的语义理解。在图 2 所示的智能对话交互核心功能模块中，自然语言理解和对话管理之外，智能问答用来完成问答类任务，智能聊天用来完成闲聊类任务。在对外输出层，我们提供了 SaaS 平台、PaaS 平台和 Bot Framework 三种方式，其中 Bot Framework 为用户提供了定制智能助理的平台。

智能对话交互核心技术

智能对话交互中的核心功能模块如图 2 所示，本部分详细介绍智能对话交互中除输出层外的自然语言理解、智能问答、智能聊天和对话管理四个核心模块。

自然语言理解

自然语言理解是人工智能的 AI-Hard 问题 [1]，也是目前智能对话交互的核心难题。机器要理解自然语言，主要面临语言的多样性、语言的多义性、语言的表达错误、语言的知识依赖和语言的上下文（示例见表 1）的五个挑战。

整个自然语言理解围绕着如何解决以上难点问题展开。

自然语言理解语义表示

自然语言理解的语义表示主要有分布语义表示 (Distributional semantics)、框架语义表示 (Frame semantics) 和模型论语义表示 (Model-theoretic semantics) 三种方式 [2]。

在智能对话交互中，自然语言理解一般采用的是 frame semantics 表示的一种变形，即采用领域（domain）、意图（intent）和属性槽（slots）来表示语义结果，如图 3 所示。

在定义了上述的 domain ontology 结构后，整个算法流程如图 4 所示。

意图分类

意图分类是一种文本分类，主要分为基于规则的方法、基于传统机器学习的方法和基于深度学习的方法，如 CNN[3]、LSTM[4]、RCNN[5]、C-LSTM[6] 及 FastText[7] 等。针对 CNN、LSTM、RCNN、C-LSTM 四种典型的模型框架，我们在 14 个领域的数据集上进行训练，在 4 万左右规模的测试集上进行测试，采用 Micro F1 作为度量指标（注：此处的训练和测试中，神经网络的输入只包含 word embedding，没有融合符号表示），结果如图 5 所示，其中 Yoon Kim 在 2014 年提出的基于 CNN[3] 的分类算法效果最好。

单纯以 word vector 为输入的 CNN 分类效果，在某些领域上无法超越复杂特征工程的 SVM 分类器。如何进一步提升深度学习的效果，其中一个探索方向就是试图把分布式表示和符号表示进行融合。比如对于「刘德华的忘情水」这句话，通过知识库可以标注刘德华为 singer、忘情水为 song，期望能把 singer 和 song 这样的符号表示融入到网络中去。具体融合方法，既可以把符号标签进行 embedding，然后把 embedding 后的 vector 拼接到 word vector 后进行分类，也可以直接用 multihot 的方式拼接到 word vector 后面。分布式表示和符号表示融合后的 CNN 结构如图 6 所示。

图6 分布式表示和符号表示融合后的 CNN 分类网络结构

经过融合后，在 14 个领域约 4 万条测试数据集上，对比融合前后的 F1 值（如图 7 所示），从中可以看出，像餐厅、酒店、音乐等命名实体多且命名形式自由的领域，效果提升非常明显。

在以词为输入单位的 CNN 中，经常会遇到 OOV（Out-Of-Vocabulary）问题，一般情况下会使用一个特殊向量（比如固定的随机向量或者已知词向量的平均值）来表示所有的 OOV，这样做的效果肯定不够好。在我们的实现中，引入了 FastText[8] 来训练 word vector，对于 OOV，可以用其 subword 向量计算得到，有效地解决了 OOV 的问题。

在效果优化方面，除了本文中所述的 word vector 的动态训练和 dropout 之外，通过对训练数据进行数据增强（data augmentation），效果会有较大的提升。

属性抽取

属性抽取问题可以抽象为一个序列标注问题，可以以字为单位进行序列标注，也可以以词为单位进行序列标注，如图 8 所示为以词为单位进行序列标注的示例。在这个例子中包含 departure、destination 和 time 三个待标注标签；B 表示一个待标注标签的起始词；I 表示一个待标注标签的非起始词，O 表示非待标注标签词。

属性抽取的方法，包括基于规则的方法和基于传统统计模型的方法，经典的如 CRF[9]，以及基于深度学习模型的方法。

2014 年，在 ARTIS 数据集上，RNN[10] 模型的效果超过了 CRF。此后，R-CRF [11]、LSTM[12]、Bi-RNN[13]、 Bi-LSTM-CRF[14] 等各种模型陆续出来。

在属性抽取这个任务中，我们采用了如图 9 的网络结构，该结构具有以下优点。

输入层
在输入层，我们做了三部分工作：① 采用了分布式表示（word vector）和符号表示（symbol vector）融合的方式，有效利用了分布式的上下文学习能力和符号的抽象知识表示能力；② 采用了局部上下文窗口（localcontext window），将窗口内的词的表示拼接在一起送入一个非线性映射层，非线性映射具有特征学习和特征降维的作用；③ 采用了 FastText [8] 进行 word embedding 的学习，可以有效解决 OOV 的问题。
Bi-LSTM 层
在中间的隐藏层，采用 Bi-LSTM 进行特征学习，既能捕捉上文特征，也能捕捉下文特征。
输出层
在输出层有几种典型的做法，比如 Bi-LSTM+Softmax、Bi-LSTM+CRF 等，Bi-LSTM+Softmax 是把属性抽取在输出层当成了一个分类问题，得到的标注结果是局部最优，Bi-LSTM+CRF 在输出层会综合句子层面的信息得到全局最优结果。
意图排序
在表1 中，我们展示了一个例子，如果不看上下文，无法确定「后天呢」的意图。为了解决这个问题，在系统中我们设计了意图排序模块，其流程如图 10 所示。对于用户输入的 utterance，一方面先利用分类抽取模型去判定意图并做抽取；另一方面，直接继承上文的意图，然后根据这个意图做属性抽取。这两个结果通过特征抽取后一起送入一个 LR 分类器，以判定当前 utterance 是应该继承上文的意图，还是遵循分类器分类的意图。如果是继承上文意图，那么可以把这个意图及其属性抽取结果作为最终结果输出；如果是遵循分类器分类的结果，那么可以把各个结果按照分类器分类的置信度排序输出。

智能问答

在具体的业务场景中有三种典型的问答任务，一是用户提供 QA-Pairs，一问一答；二是建立结构化的知识图谱，进行基于知识图谱的问答；三是针对非结构化的文本，进行基于阅读理解的问答。本文重点介绍我们在阅读理解方面做的工作，比如利用阅读理解解决淘宝活动规则的问答。

在阅读理解的方法上，目前针对斯坦福大学的数据集 SquAD，有大量优秀的方法不断涌现，比如 match-LSTM[15]、BiDAF[16]、DCN[17]、 FastQA[18] 等。文献 [18] 给出了目前的通用框架，如图 11 所示，主要分为 4 层：① Word Embedder，对问题和文档中的词进行 embedding；② Encoder，对问题和文档进行编码，一般采用 RNN/LSTM/BiLSTM； ③ Interaction Layer（交互层），在问题和文档之间逐词进行交互，这是目前研究的热点，主流方法是采用注意力机制（attention）；④ Answer Layer（答案层），预测答案的起始位置和结束位置。

我们在具体实现中，参考 BiDAF[16] 网络结构，在此基础上做了大量优化。

模型的业务优化

需要改进模型的结构设计，使得模型可以支持电商文档格式的输入。电商规则文档往往包含大量的文档结构，如大小标题和文档的层级结构等，将这些特定的篇章结构信息一起编码输入到网络中，将大幅提升训练的效果。

模型的简化

学术文献中的模型一般都较为复杂，而工业界场景中由于对性能的要求，无法将这些模型直接在线上使用，需要做一些针对性的简化，使得模型效果下降可控的情况下，尽可能提升线上预测性能，例如可以简化模型中的各种 bi-lstm 结构。

多种模型的融合

当前这些模型都是纯粹的 end-to-end 模型，其预测的可控性和可解释性较低，要适用于业务场景的话，需要考虑将深度学习模型与传统模型进行融合，达到智能程度和可控性的最佳平衡点。

智能聊天

面向 open domain 的聊天机器人目前无论在学术界还是在工业界都是一大难题，目前有两种典型的方法：一是基于检索的模型，比如文献 [19-20]，其基本思路是利用搜索引擎通过计算相关性来给出答案；二是基于 Seq2Seq 的生成式模型，典型的方法如文献 [21-22]，其网络结构如图 12 所示。

检索模型的优点是答案在预设的语料库中，可控，匹配模型相对简单，可解释性强；缺点是在一定程度上缺乏对语义的理解，且有固定语料库的局限性，长尾问题覆盖率较差。生成模型的优点是通过深层语义方式进行答案生成，答案不受语料库规模限制；缺点是模型的可解释性不强，且难以保证回答一致性和合理性。

图15 IR、Generation、Rerank、IR+Rerank+Generation 效果对比

此模型在阿里小蜜中上线，示例如图 16 所示。在阿里小蜜中，针对之前的 IR 模型和 AliMe Chat 模型，利用线上流量做了 A/B Test，结果如表 2 所示。从用户日志中随机选择 2 136 条数据，其中 1 089 是采用 IR 模型回答，另外 1 047 是采用 AliMe Chat 回答，AliMe Chat Top1 答案的准确率（accuracy）是 60.36%，远远好于 IR 的 40.86%。

图16 AliMe Chat 在阿里小蜜中上线后的聊天示例

表 2 阿里小蜜中 IR 方法与 AliMe Chat 方法 A/B Test 结果

对话管理

对话管理根据语言理解的结构化语义表示结果以及上下文，来管理整个对话的状态，并决定下一步采取什么样的动作。

下面来看一个简单的对话例子。

对话交互分成两个阶段，第一阶段，通过多轮对话交互，把用户的需求收集完整，得到结构化的信息（出发地、目的地、时间等）；第二阶段就是请求服务，接着还要去做选择、确定、支付、购买等后面一系列的步骤。

传统的人机对话，包括现在市面上常见的人机对话，一般都是只在做第一阶段的对话，第二阶段的对话做得不多。对此，我们设计了一套对话管理体系，如图 17 所示，这套对话管理体系具有以三个特点。

图17 对话管理框架图

第一，设计了一套面向 Task Flow 的对话描述语言。该描述语言能够把整个对话任务流完整地表达出来，这个任务流就是类似于程序设计的流程图。对话描述语言带来的好处是它能够让对话引擎和业务逻辑实现分离，分离之后业务方可以开发脚本语言，不需要修改背后的引擎。

第二，由于有了 Task Flow 的机制，我们在对话引擎方带来的收益是能够实现对话的中断和返回机制。在人机对话当中有两类中断，一类是用户主动选择到另外一个意图，更多是由于机器没有理解用户话的意思，导致这个意图跳走了。由于我们维护了对话完整的任务流，知道当前这个对话处在一个什么状态，是在中间状态还是成功结束了，如果在中间状态，我们有机会让它回来，刚才讲过的话不需要从头讲，可以接着对话。

第三，设计了对话面向开发者的方案，称之为 Open Dialog，背后有一个语言理解引擎和一个对话引擎。面向开发者的语言理解引擎是基于规则办法，能够比较好地解决冷启动的问题，开发者只需要写语言理解的 Grammar，基于对话描述语言开发一个对话过程，并且还有对数据的处理操作。这样，一个基本的人机对话就可以完成了。

阿里智能对话交互产品

智能服务——小蜜家族

2015 年 7 月，阿里巴巴推出了自己的智能服务助理——阿里小蜜，一个围绕着电子商务领域中的服务、导购，以及任务助理为核心的智能对话交互产品。通过电子商务领域与智能对话交互领域的结合，带来传统服务行业模式的变革与体验的提升。在 2016 年的「双十一」期间，阿里小蜜整体智能服务量达到 643 万，其中智能解决率达到 95%，智能服务在整个服务量 ( 总服务量= 智能服务量+ 在线人工服务量+ 电话服务量) 占比也达到 95%，成为了「双+ 十一」期间服务的绝对主力。阿里小蜜主要服务阿里国内业务和阿里国际化业务，国内业务如淘宝、天猫、飞猪、健康、闲鱼、菜鸟等，国际化业务如 Lazada、PayTM、AE 等。

随着阿里小蜜的成功，将智能服务能力赋能给阿里生态圈商家及阿里生态之外的企业和政府部门，便成了必然的路径。店小蜜主要赋能阿里生态中的商家，云小蜜则面向阿里之外的大中小企业、政府等。整个小蜜家族如图 18 所示。

过去几年中，结合阿里巴巴在电商、客服、智能设备方面的刚性需求和场景，我们在智能对话交互上做了大量的探索和尝试，构建了一套相对完整的数据、算法、在线服务、离线数据闭环的技术体系，并在智能服务和智能设备上得到了大规模的应用，简单总结如下。

（1）自然语言理解方面，通过 CNN/Bi-LSTM-CRF 等深度学习模型、分布式表示和符号表示的融合、多粒度的 wordembedding、基于上下文的意图排序等方法，构建了规则和深度学习模型有机融合的自然语言理解系统。

（2）智能问答方面，成功的将机器阅读理解应用在了小蜜产品中。

（3）智能聊天方面，提出了 AliMe Chat 模型，融合了搜索模型和生成模型的优点，大大提高了闲聊的精度。

（4）对话管理方面，设计了基于 Task Flow 的对话描述语言，将业务逻辑和对话引擎分离，并能实现任务的中断返回和属性的 carry-over 等复杂功能。

目前的人工智能领域仍然处在弱人工智能阶段，特别是从感知到认知领域需要提升的空间还非常大。智能对话交互在专有领域已经可以与实际场景紧密结合并产生巨大价值，尤其在智能客服领域（如阿里巴巴的小蜜）。随着人工智能技术的不断发展，未来智能对话交互领域的发展还将会有不断的提升。

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。