【人工智能】腾讯优图贾佳亚：人工智能的多模态发展

2020 年 5 月 10 日 产业智能官

“人工智能的终极应用距离我们到底还有多久？” 贾佳亚的答案是：可能还需要50-100年。

作者 | 张栋

7月12日-7月14日，2019第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，深圳市人工智能与机器人研究院协办，得到了深圳市政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会，旨在打造国内人工智能领域极具实力的跨界交流合作平台。

7月14日下午，在「智慧城市·视觉智能」专场上，腾讯优图实验室联合负责人，腾讯杰出科学家，香港中文大学终身教授贾佳亚作为开场嘉宾，率先分享。

甫一亮相，他便提出了一个终极命题，“人工智能的终极应用距离我们到底还有多久？” 他给出的答案是：可能还需要50-100年的发展路径。

贾佳亚教授认为，人工智能学科发展与人类智能差距之一就是“多模态信息的智能化理解”，视觉、声音、符号语言、嗅觉和触觉等信息，具有无限多样性。

而多模态人工智能还存在不少技术难点：第一是数据模态多种多样，包括2D图像、3D模型、结构化信息、文本、声音及更多无法量化的数据；

第二是多模态数据的不对应，如从图像到文字，从文字到图像，都是“一对多”的过程，会有多种的描述和呈现；

第三是多模态数据的融合，一个软件或算法的进步较为容易，但多个算法叠加在一起，难度将几何级上升，如“告诉机器人拿桌子左边的瓶子”，会经过语言模型、三维建模、自动寻路、图像分析等步骤；

第四是多模态监督，“如何告诉机器人拿错了”“哪一个步骤拿错了”也是目前的难点。

而要解决这些多模态信息的难题，贾佳亚教授提出要更好研究嗅觉、味觉、触觉、心理学等难以量化的信号问题，通过多模态数据使得计算成为可能，进行协同学习、用一个资源丰富的模态信息辅助另一个资源贫瘠的模态。

多模态人工智能问题的解决，就会是人工智能更多落地的未来。

以下是贾佳亚教授大会现场全部演讲内容，雷锋网作了不改变原意的整理及编辑：

贾佳亚：大家好，今天来到这里非常开心，因为近期工作繁忙，较少出席外部大会，现在恰逢暑假期间，可能各位同学或者科研爱好者希望外出学学东西，我也在想，CCF-GAIR可能会是一个比较好的机会。

今天我会向大家展示一些新方向的研究。首先给大家抛点砖以引玉，看看人工智能领域学科发展的现状。

CVPR在这四、五年时间中发生了巨大变化，上图显示的是它的投稿论文数量和被接收的论文数量，每年以超过50%的速度在增加。

每年如此多优秀论文的出现，也就意味着人工智能的发展还处于一个快速上升的阶段。

另外，ACL（自然语言处理领域的顶会）在过去五年中，它的投稿数量也有极大地提高，接近百分之百的递增。自然语言处理领域的发展是比较困难的，因为它需要大量的处理器、需要非常高端的算法。

这是它们的趋势，是比较表面的东西，我们来看更深层次的东西。

上图还有CVPR的关键词，包含Deep、Image等等，今天我给大家讲的不是这些很热门的方向，其中还有一个大家很容易忽视的模块：Language。

再往下，ACL最热门的是Deural、Learning等等，这里面也有一个非常小的领域：Visual。

这两个领域基本上是分割开的，通过对于这些关键词的分析，可以发现虽然都是AI的顶会，大家都做了很多有趣的工作，但是里面的内容基本没有交集，懂ACL的人并不懂CVPR，懂CVPR的人也很少在ACL里面工作。

ACM MM是一个比较综合的大会，里面有更多的交叉性学科，但是其中最重要的部分依然是Video、Deep等等；非常小的部分是Text、Speech。

我们通过对它的研究，挖掘出一些不会引人注意的特征。为什么去挖掘它？因为这件事情是跟我们对传统的AI认知恰恰相反的事情。

在传统的AI认知中，我们认为AI已经做得非常好了。

从1997年的深蓝，到2014年人脸识别的突飞猛进，所谓的AI发展，其实都是在某一个子领域做到极致。

今天我将这个部分作为开头，更想给大家讲的是，AI再往下发展应该怎么走？这也是之前很多人问过我的问题。

我的基本观点是：现在的AI距离终极的应用和最后的发展还很远很远，我相信接下来的AI发展道路不止10年、20年，可能是50到100年的发展路径。

首先我认为人工智能学科的发展与人类的智能差距还非常、非常之大。

人工智能和人类智能差距的一个重要原因是对多模态信息的智能化理解，这是各位投身学术界或产业界需要重点关注的一个领域。

从大脑结构可以发现，我们所有的感知系统是一体的，这个大脑既包括了听觉、味觉、嗅觉、触觉，也包括了说话、行动、感应、压力控制。

人脑就像一个中央控制系统，能够把所有的感知系统全部融合起来，如果与人脑做对比，现在的人工智能发展还处在一个非常弱小的阶段。

因为我们现在还没有一套完整系统，甚至没有一个好的算法，把最为简单的两种模式叠加起来。

如果十年、二十年后回过头来看我们现在的发展历程，比如人脸识别超过了人、特征识别超过了人，这些都是微不足道的，因为我们有更为广阔的天地要去探索。

通过以上介绍就会发现，其实人工智能距离成熟还太远太远，现在的人工智能是单模态的人工智能，甚至是单点的一个触发，在以后的多模态世界中，会发生很多更为有趣的事情。

同时，做好这件事，也有诸多难点。

第一个是数据模态的多样性。

我们有这么多图像、模型、文本、声音、结构化信息，怎么去融合？怎么能找到一个场景把这么多信息融合进来？

当你把这些信息全部融合在一起的时候，与我们最为贴合的是哪一个产业？那就是汽车产业。

不管是车与车之间的交流，还是车与道路之间的交流，其实车更像一个机器人，而且在不久的将来，我相信随着车厂和各个技术的融合，这个行业会产生非常多有趣的应用。

除此之外，多模态还有很多无法量化的数据，比如说嗅觉现在还没法去量化，比如闻到一个香味，到底怎么量化它？

第二个难点是多模态数据的不对应。

举一个简单的例子，假设人们看到上面这张图的时候，其实我们有非常多的方法去形容。

但是当我们用多模态数据表述的时候，如何能把两种不相关的数据完整地、像人一样自然地表达出来，这是非常难的事情。

第三是多模态数据的融合。

我一直说一个软件或者是算法的进步是很容易的，但是多个算法连在一起，它的难度是几何级上升的。

现在很多机器人可以跳舞、可以交互，但还没有一个厂商能在五年内完成一个指令：去帮我拿桌子上左边的瓶子。

这其中就涉及到语言模型、三维建模、自动寻路、图像分析、反馈机制，这样一个简单的工作，现在还难以驾驭。

优图实验室借助强大的腾讯平台，我们过去在这方面也做了一些有趣的探索。

这是一个小视频，如果谁能看得懂他表达的意思可以举手示意一下。

在场几百位听众，没有一个人知道他在表述什么事情，其实我也不知道。

基于此，我们在已有的一套非常好的骨骼系统上，加了一个解决手语人士和正常人士交流沟通的翻译器。

做这件事之前，我们做了一个调研，发现我国有听障人士7200万，占全国总人口的5%；全世界有超过4.66亿人患有残疾性的听力损失，占了全球人口的5%。

这件事对我的触动很大，由此，优图实验室在过去几个月就投入了部分研发人员做这件事情。

我们希望做一个手语翻译器，能够很好解决听障人士的交流问题。这件事情看起来很简单，但做的过程中却困难重重。

首先，中国现在都还没有一套规范的手语标准，深圳的手语和北京的手语是不一样的，东莞的手语可能和深圳的也不一样。

当时我们想当然地认为这件事情很容易做，用一套强一点的算法可以在三个月时间内做出来。

事实并非这样，除了刚才的问题之外，还有一个非常难的问题，数据采集回来后，如何将数据转化为应用。

首先需要做一个姿态识别，它是一个图像模态；然后做动作识别，是一个时序模态；然后做语义转化，最后做语言模型，这是一个大致的流程。

在这个过程中，我们需要提取到关键点和手型，然后转化为文字，最后全部粘合起来变成一个语言级的表述，这是一个非常大的系统，我们最后做下来，远远超过了当时预估的工程量和算法技术含量。

目前，我们还只是在一些关键的语句上做得比较好，当我们把这些语料库提供给政府、学校使用的时候，可能还需要一个多月甚至更长的时间去开发。

语言和图像联合处理方面，给一张图片，问一个问题，机器能够回答的也是寥寥可数，包括我们现在能做到的也是非常简单的，稍微复杂一点的都做不了。

比如说上图中，问这个花是什么颜色？它会回答我这是黄色。

同样一张图，问花是放在哪里的？你要得到“花瓶里”的信息，它会告诉你这是一个花瓶。这里面涉及到对图像的细粒度理解，也涉及到自然语言的融合和解答过程。

这是我们当时设计的一个模型来做这件事情。

我们回头来看，多模态还有什么问题，第一是数据集存在巨大的Bias，比如看到这张图象，绝大部分人问的问题都是，这是不是长颈鹿，绝大部分的答案都是“是的”。

但是很少人问，这张图像里是不是个羚羊，没有问这些问题的时候，系统就学不到否定性的答案，在你的数据集上就会出现很大的偏差。

第二是这个问题缺乏多模态的监管，也就是说有这样一个图像，我们只有一个简单的问题，比如 “这里面的桌子是什么颜色的”，实际上图片中并没有桌子，但它还是要给你一个答案，这就是缺乏监督的原因。

还比如说，这张图像里有多个人员，我要把它区分出来是非常难的，人眼可以精确分割碗里的每一粒米，但是现在的算法想分割出每一粒米，并不是很容易。

基于腾讯的一个巨大的内容平台，我们每天要处理百亿计的视频，包括长视频、短视频、小视频。

我们基于多模态的处理方式，从视频本身得到很多视频特征，然后进行多模态融合，目前做得效果不错。

最后讲讲多模态的未来发展。

多模态要解决非常多的难以量化的信号，包括嗅觉、味觉、触觉等等。

再往下走，多模态还要解决非常多的协同学习问题，用一个资源丰富的模态信息辅助另外一个资源贫瘠的模态，这里面就涉及到更多的机器学习的内容，包括Transfer Learning、Domain Adaptation、Few/One/Zero-Shot Learning这些非常基础而且非常重要的机器学习内容。

这是我们今年在做的一件事情，当我们看到两张人脸的时候，我们想把它们之间的变化转移到猫身上，这就是一个非常典型的Domain Adaptation。我们把两个人脸转化成猫的表情，这是用一种模态指导另一种模态做更有趣的事情的其中一个案例。

最后的结语：现在的人工智能已经非常厉害，尤其是在CVPR、ICCV和ACL等等顶会上看到很多了不起的方法出现，在每一个子项上不断地刷新记录，推动这个技术空前发展。

但是如果问我，当把所有的记录都刷完了，是不是意味着技术发展已经到达瓶颈？我告诉大家，这个记录是永远刷不完的，人可以做到的事情是机器远远达不到的。

每个时代都会成为过去的时代，在这个过程中，我希望大家能够继续保持对这个领域的热情，并做出更多成绩。

谢谢大家。

动荡的 2019：数据和 AI 生态圈

作者：Matt Turck是早期阶段风投公司FirstMark的风险投资家。

这是数据领域又一个激烈动荡的年头，令人兴奋，但又错综复杂。

随着越来越多的人上网，一切继续在加快“数据化”的步伐。这个大趋势的发展势头越来越猛，归因于基础设施、云计算、AI和开源各个领域取得的进步的大融合以及我们经济和生活的整体数字化。

几年前，“大数据”方面的讨论主要侧重于技术层面，围绕着收集、处理和分析大量数据的新一代工具。其中许多技术现已广为人知，并大规模部署。此外，尤其是在过去几年，我们开始通过数据科学、机器学习和AI将一层层智能添加到许多应用软件中，而这些应用软件现在越来越多地运行于生产环境的各种消费级和B2B产品中。

随着那些技术不断改进，并由最初的早期采用者群体（FAANG和初创公司）扩大到更广泛的经济和世界，讨论的性质从纯粹的技术性讨论变为侧重于探讨对我们的经济、社会和生活带来的影响。

我们刚开始真正了解未来颠覆的本质。在数据驱动的自动化司空见惯（自动化产品、自动化汽车和自动化企业）的世界，工作的新特性是什么？我们如何处理社会影响？我们如何看待隐私、安全和自由？

与此同时，底层技术继续快速发展，众多初创公司、产品和项目构成了一个充满活力的生态系统，预示着将来可能出现影响更深远的变化。在该生态系统中，这一年的特点是出现了期待已久的整合的早期局面；随着早期技术开始让位于下一代技术，可能从一个时代转变到另一个时代。

为了试图解读这一切，我们发布了第六份数据和AI生态系统“国情咨文”。如果读者有兴趣想跟踪了解历年的演变，可以看看2012年至2018年的往年版本。

值得一提的是：由于“大数据”一词现已成为昔日热门的流行语，今年的标题就改为了“数据和AI领域”。

数据、AI和社会：潮流在转变

2018年，我们注意到数据界如何开始揭露一些更黑暗、更可怕的内幕，尤其是在Cmbridge Analytica丑闻之后，这个趋势在2019年愈演愈烈。数据泄密和隐私丑闻更多。AI深度造假（deepfake）方面出现了更多的例子，我们对此毫无准备。

因而，潮流已开始大幅转变。

当然，关于AI危险的争论已经备受关注，今年出现了旨在认真思考那些问题的倡议，例如设立了李飞飞领衔的人类中心人工智能研究所。

隐私问题可能比以往任何时候都更加突出，进入到2019年公众辩论的最前沿。而许多这些问题都与被数十亿人熟知的服务Facebook有关。

随着各国政府日益参与进来，数据隐私领域也在发生转变。

监管当然在全面铺开：

欧洲数据保护和隐私法规（GDPR）于2018年5月生效，此后宣布了几起巨额罚款，包括法国数据保护监管机构在2019年1月对谷歌开出5000万欧元的罚单，英国信息专员办公室在2018年10月对Facebook开出50万英镑的罚单。
《加利福尼亚州消费者隐私法案》（CCPA）将于2020年1月1日生效。
纽约州的隐私法案比加州的隐私法案“还要严厉”。
旧金山刚投票禁止市政府机构使用人脸识别技术。
伊利诺伊州提议反对将视频机器人用于招聘面试。

然而，政府可能会采取更严厉的行动。首先，Facebook可能会因隐私问题被联邦贸易委员会（FTC）处于高达50亿美元的罚款。也许最重要的是，要求拆分几大互联网巨头的呼声日益高涨——权力太大，数据太多，隐私又不够。Facebook无疑是最明显的目标，但也包括其他网络巨头（总统候选人Elizabeth Warren的提议针对谷歌和亚马逊）。

科技巨头已经感受到了来自内部的压力。谷歌、亚马逊和微软的员工抗议人脸识别技术的商业化。谷歌让步了，亚马逊没有让步——一些激进的股东和员工试图实施禁令，但失败而归。

对于FAANG来说，隐私已成为一个新的战场，迫使各自的领导人采取更公开的立场来阐明这个问题：

苹果CEO Tim Cook提醒我们警惕“数据的武器化”，那将导致我们进入“数据工业综合体”（data industrial complex）。
谷歌CEO Sundar Pichai在《纽约时报》上就此问题表达了公开立场。
Facebook CEO Mark Zuckerberg誓言要将Facebook变成一个关注隐私的消息和社交网络平台。

当然，这些说法在多大程度上能信以为真谁也说不准，可能取决于具体的公司和领导人。

以Facebook为例，全球加密货币Libra的推出可能被认为以此在隐私优先的“后数据”时代继续赚钱：在这个时代，这家公司不大依赖基于用户数据的纯粹广告模式，但也可能被认为以此收集更多的个人数据。

数据和AI对隐私和社会带来的影响方面的争论显然非常重要。不过，这是复杂的讨论，涉及许多细微差别。

我们与隐私的关系仍然很复杂，矛盾的情况随处可见。人们说他们关心隐私，但继续购买各种隐私保护不可靠的联网设备。他们说他们为Facebook的隐私泄露感到愤怒，但Facebook继续增加用户数，业绩继续超预期（2018年第四季度和2019年第一季度都如此）。

同样，我们如何决定处理AI要做出许多权衡和取舍。与所有技术一样，AI本质上是中立的，它为社会带来好处还是坏处最终是人类的决定。以人脸识别为例：它可能是国家监控的工具，但也可以帮助找到性交易的受害者。决定如何监管或遏制AI会带来各种难以预测的后果。比如说，如果你在西方国家监管AI，最终会不会较之中国，失去长期的竞争优势（中国有一套不同的规则）？

数据技术：充满活力但不断发展的领域

虽然在2019年不可能忽视围绕数据和AI的隐私、安全和监管这些更广泛的问题，但数据技术和产品组成的生态系统与过去一样令人兴奋。

生态系统也出现了几处有意思的演变，Hadoop等一些开创性技术可能日渐式微，取而代之的是云计算和Kubernetes，而商业智能等整个领域似乎在快速合并。

我们会深入地钻研解读那些趋势，不过先看一下我们的2019年数据和AI领域生态图：

谁进谁出？

从市场退出的角度来看，上一年很活跃。

有几家公司已上市。Crowdstrike（纳斯达克股票代码：CRWD）和Elastic（纽约证券交易所股票代码：ESTC）在IPO时达到很高的估值：分别是70亿美元和50亿美元。其他IPO包括PagerDuty（18亿美元）、Anaplan（18亿美元）和Domo（5亿美元）。

去年发生了几起规模非常大的收购：

包括Qualtrics（被SAP以80亿美元收购）
Medidata（IPO后被达索以58亿美元收购）
Hortonworks（与Cloudera达成涉资52亿美元的合并）
Imperva（被Thoma Bravo以21亿美元收购）
AppNexus（被AT&T以20亿美元收购）
Cylance（被黑莓以14亿美元收购）
Datorama（被Salesforce以8亿美元收购）
Treasure Data（被Arm以6亿美元收购）
Attunity（IPO后被Qlik以5.6亿美元收购）
Dynamic Yield（被麦当劳以3亿美元收购）
Figure Eight（被Appen以3亿美元收购）

商业智能领域：

Tableau（被Salesforce以157亿美元收购）
Looker（被谷歌以26亿美元收购）
Periscope Data（被Sisense以1亿美元收购）
ClearStory Data（被Alteryx以2000万美元收购）
Zoomdata（被Logi Analytics收购）

出现在2018年行情报告中的其他许多公司以较低金额被收购：Alooma（谷歌）、Bonsai（微软）、Euclid Analytics（WeWork）、Sailthru（Campaign Monitor）、Data Artisans（阿里巴巴）、GRIDSMART（Cubic）、Drawbridge（LinkedIn）、Citus Data（微软）、Quandl（纳斯达克）、Connotate（import.io）、Datafox（Oracle）、Market Track（Vista Equity Partners）、Lattice Engines（邓白氏）、Blue Yonder（JDA Software）和SimpleReach（Nativo）。

同样值得注意的是，2016年至2017年常出现的各大互联网公司进行AI人才收购并未完全消失：比如说，Twitter收购了Fabula AI，以夯实其机器学习专长。

在投资方面，大数据和AI初创公司继续看到巨额融资。针对中国的投资不像去年那么大，去年多家公司融资金额超过10亿美元。今年完成巨额融资的中国公司包括人脸识别公司Face ++（7.5亿美元D轮）、AI芯片制造商地平线机器人（6亿美元B轮）、车队管理公司G7（3.2亿美元F轮）和在线辅导平台猿辅导（3亿美元F轮）。

在美国，巨额资金投入到了自动驾驶汽车公司，包括Cruise（2018年和2019年两轮19亿美元）、Nuro（9.4亿美元B轮）和Aurora（6亿美元B轮）。机器人流程自动化（RPA）公司也出现了巨额融资：UiPath（2018年和2019年两轮8亿美元）和Automation Anywhere（2018年两轮5.5亿美元）。

其他完成巨额融资的美国公司包括：Verily Life Sciences（10亿美元私募股权融资）、Cambridge Mobile Telematics（5亿美元）、Clover Health（5亿美元E轮）、Veeam Software（5亿美元）、Snowflake Computing（4.5亿美元F轮）、Compass（4亿美元F轮）、Zymergen（4亿美元C轮）、Dataminr（3.92亿美元E轮）、Lemonade（4亿美元D轮）、Rubrik（2.6亿美元E轮）、Databricks（2.5亿美元E轮）和MediaMath（2.25亿美元D轮）。

2019年数据和AI领域的主要趋势

数据和AI生态系统仍是技术界最令人兴奋的领域之一。它不仅有自己的井喷发展势头，还推动和加快其他许多领域（消费者应用、游戏和交通出行等）的创新。因此，该生态系统的整体影响力很大，远远超出下面的技术讨论。

当然，重大趋势不会在短短一年内出现，以下许多趋势经历了数年的酝酿。我们将重点讨论在2019年加快发展的趋势。

我们看到基础设施方面的三大趋势：

第三波浪潮？从Hadoop到云服务再到Kubernetes
数据治理、数据编目和数据沿袭：数据管理越来越重要
侧重于AI的基础设施堆栈大行其道

数据基础设施领域继续快速发展。这里的主要变化是从Hadoop到云服务再到混合/ Kubernetes环境的分三个阶段的转变。

Hadoop好比是大数据领域的“保守派”。这是一种使用计算机网络，分布式存储和处理海量数据的框架，它在数据生态系统的爆炸式增长中起到了绝对重要的作用。

然而在过去几年，行业观察人士纷纷预言Hadoop已死。由于Hadoop供应商遇到各种各样的麻烦，今年这个趋势进一步加速。撰写本文时，MapR处于关门大吉的边缘，可能已找到了买家。最近合并的Cloudera和Hortonworks刚完成了52亿美元的大手笔交易，由于季度盈利令人失望，股价暴跌40%。虽然Cloudera宣布了众多云产品和混合产品，但还没有推出。

由于直接面临云平台的竞争，Hadoop面临越来越大的阻力。Hadoop是在云并不是重要选择的时期开发的，那时大多数数据放在企业内部，网络延迟是严重瓶颈，因此将数据和计算放在同一地方很有意义。但今非昔比。

然而，Hadoop不太可能很快就会消失。Hadoop的采用率可能在减慢，但部署在企业界的数量庞大，因而在未来几年会保持惯性和持久力。

不管怎样，向云转变的步伐显然在加快。顺便提一下，我们在与《财富》1000强企业高管的谈话中发现，2019年迎来了大转变。在过去几年，这几乎是公开的秘密：尽管大家在热议云，但真正的好戏出现在企业内部，尤其是在受监管行业。许多同样的《财富》1000强企业高管积极转向云，使用微软产品的传统部门纷纷转向Azure。

因此，尽管规模已经很庞大，但云提供商仍在继续迅猛发展。AWS在2018年创收257亿美元，比2017年的175亿美元猛增46.9%。微软Azure的收入未单独披露，但截至2019年3月的季度同比猛增73%。同一季度AWS的收入同比增长41%。

随着云的使用日益广泛，客户开始对成本犹豫不决。在许多地方的董事会会议室，高管突然留意到云支出迅速增多。云确实提供了灵活性，但常常需要高昂的费用，如果客户未注意度量，或者未准确预测计算需求，更是如此。Adobe和Capital One等AWS客户的云支出在2017年到2018年仅仅一年内就增加了60%，远高于2亿美元。

成本以及担心被供应商锁定加快了向结合公共云、私有云和本地环境的混合方法演变的步伐。面对众多选择，企业将日益选择最适合特定工作的工具，以优化性能和成本。随着云提供商更积极地与众不同，企业随之采用多云战略，充分利用每家云提供商最擅长的方面。在一些情况下，最好的做法是将一些工作负载留在本地以优化成本，对于非动态工作负载而言更是如此。

值得关注的是，面对企业计算出现在混合环境中的现实，云提供商纷纷提供AWS Outposts之类的工具。这类工具让客户可以在本地环境运行计算和存储，并将本地工作负载与AWS云端的其余应用软件无缝集成。

在这个新的多云和混合云时代，Kubernetes无疑是崛起的超级巨星。Kubernetes是2014年由谷歌开源的一种用于管理容器化工作负载和服务的项目，与几年前的Hadoop一样受到了热捧，8000人出席了KubeCon大会，介绍它的博文和播客不计其数。许多分析师认为，Red Hat在Kubernetes界的显赫地位很大程度上促使IBM斥资340亿美元大举收购它。除了在一个或几个公共云运行工作负载外，Kubernetes还有望帮助企业在自己的数据中心和私有云运行工作负载。

作为一个特别擅长管理复杂混合环境的编排框架，Kubernetes还正成为机器学习界越来越有吸引力的选择。Kubernetes为数据科学家提供了灵活性，可以随意选择自己青睐的任何语言、机器学习库或框架，并且训练和扩展模型，实现比较快的迭代和强大的可重复性，没必要成为基础设施专家，同一基础设施为多个用户提供服务。Kubernetes的机器学习工具包Kubeflow发展势头正猛。

Kubernetes仍处于相对新兴的阶段，但值得关注的是，这可能标志着离云机器学习服务渐行渐远，因为数据科学家更喜欢Kubernetes的整体灵活性和可控性。我们可能正进入到数据科学和机器学习基础设施的第三个范式转变，从Hadoop（直到2017年？）到数据云服务（2017年至2019年），再到由Kubernetes和Snowflake等下一代数据仓库主导的世界（2019年至？）。

这种演变的另一面是复杂性增加。无疑有机会提供一个完整的平台，可以抽取出云底层基础设施的众多复杂性，并使一群更广泛的数据科学家和分析员更容易享受这个新世界。

Serverless是这种简化的一种尝试，尽管角度不一样。这种执行模式使用户能够编写和部署代码，无需担心底层基础设施。云提供商处理所有后端服务，根据客户实际使用的资源向客户收费。Serverless在过去几年一直是重要的新兴话题，这是我们为今年的数据和AI领域添加的另一个新类别。然而，Serverless在机器学习和数据科学方面的适用性仍在完善之中，像Algorithmia和Iguazio/Nuclio这些公司是早期的进入者。

在企业界数据环境日益呈混合特性的另一个结果是，需要加大力度来控制企业的数据。

当下一些数据驻留在数据仓库中，一些数据驻留在数据湖中，还有一些数据驻留在其他各种环境，横跨本地环境、私有云和混合云，你如何查找、筛选、控制和跟踪数据？这些努力有着各异的相关形式和名称，包括数据查询、数据治理、数据编目和数据沿袭，所有这些都越来越重要、越来越抢眼。

在混合环境查询数据本身面临挑战，其解决方案属于存储和计算相分离这个大趋势。

数据治理是迅速备受企业关注的另一个方面。数据治理的大体思路是管理一家企业的数据，确保数据在整个数据生命周期中都具有高质量。数据治理涉及数据的可用性、完整性、易用性、一致性和安全性等方面。值得注意的是，2019年初，Collibra融资1亿美元，估值超过10亿美元。

数据目录是另一种日益重要的数据管理方式。数据目录实际上是综合企业各种数据资产的字典。它们使用户（包括数据科学家、数据分析员、开发人员和业务用户）能够在自助环境下发现和使用数据。

最后，数据沿袭可能是最新出现的数据管理类别。数据沿袭旨在捕获整个企业的“数据旅程”。它可以帮助公司搞清楚如何收集数据、数据在整个生命周期内如何改动和共享。这一块的增长受到许多因素的推动，包括合规、隐私和道德越来越重要，以及需要机器学习管道和模型具有可重复性和透明度。

今年势头越来越猛的最后一个关键趋势是侧重于AI的基础设施堆栈不断涌现。

需要管理AI管道和模型促使MLOps（或AIOps）这个类别迅猛发展。鉴于这个新趋势的势头，我们在今年的生态图中添加了两个新方框，一个在基础设施下面（有众多早期阶段的初创公司，包括Algorithmia、Spell和Weights & Biases等），另一个在开源下面（有众多项目，通常也处于早期阶段，包括Pachyderm、Seldon、Snorkel和MLeap等）。

机器学习工程师需要能够进行实验、快速迭代，需要时访问GPU等资源。许多早期阶段的初创公司提供这种基础设施，包括 Spell、Comet和Paperspace。

AI对基础设施产生了深远的影响，甚至在堆栈的较低层面也是如此，GPU数据库大行其道，新一代AI芯片（Graphcore和Cerebras等）涌现出来。AI可能迫使我们重新思考计算的整个本质。

在分析方面，我们将重点介绍几个主要趋势：

热点转向企业AI平台
横向AI继续非常活跃
商业智能（BI）在合并

企业界部署机器学习/AI仍处于早期阶段。

对于该领域的大多数公司而言，明确的目标是在机器学习/AI人才一向短缺继续是阻碍广泛采用的严重瓶颈这种环境下，促进机器学习/AI的大众化，惠及更广大的用户和公司。然而不同的玩家有不同的策略。

一种方法是AutoML。它使机器学习生命周期的所有环节实现自动化，包括一些最繁琐的环节。视产品而定，AutoML可以处理任何任务：从特征生成和特征工程、算法选择，到模型训练、部署和监控，不一而足。自我们发布2018年生态图以来，DataLobot这家AutoML专业公司已完成了1亿美元的D轮融资。

该领域的其他公司（Dataiku、H20和RapidMiner）不仅提供具有AutoML功能的平台，还提供更广泛的功能。比如说，自发布2018年生态图以来，Dataiku已完成约1.01亿美元的C轮融资，总体理念是助力整个数据团队（包括数据科学家和数据分析员），并摈弃处理整个数据生命周期过程中的诸多复杂和繁琐事务。

云提供商当然很活跃，包括微软的Learning Studio、谷歌的Cloud AutoML和AWS Sagemaker。尽管这些云提供商实力强大，但那些产品的范围仍相当狭窄——通常难以使?6?7?6?7用，主要针对精通技术的高级用户。它们还处于初期阶段。亚马逊的云机器学习平台Sagemaker在2018年起步缓慢，在商业领域的销售额仅1100万美元。

一些云提供商正与该领域的专业玩家积极合作：微软参投了Databricks 2.5亿美元的E轮融资，这可能是未来收购的前奏。

除了企业AI平台外，横向AI（包括计算机视觉、NLP和语音等）领域继续异常活跃。

AI的一些主要趋势包括：

NLP方面的重大改进，尤其是通过运用迁移学习（指对大量数据训练模型，并针对企业正在处理的具体问题来移植和微调模型），使其能够适用于较少的数据，比如ELMO、ULMFit和谷歌AI的BERT。
使AI适用于少量数据的更多项目，包括一次性学习（1-shot learning）。
将深度学习与强化学习相结合
GAN继续取得进展

应用方面的几个关键趋势如下：

机器学习/AI达到部署阶段
企业自动化和RPA大行其道

我们试图将机器学习/AI做入到适合它的几乎任何企业应用中，现在已有三四个年头。无疑有一些拙劣的早期产品（第一代聊天机器人）和一些营销噱头不切现实（尤其是试图将机器学习/AI做入到现有产品中的老牌公司），总体而言仍处于早期阶段。许多开发机器学习/AI应用的初创公司仍在摸索从研发模式进入到完全投产所面临的挑战。

但今后几年的趋势似乎很明显：拿来某个问题，看看机器学习/AI能否大有作为，如果有帮助，构建一款AI（或AI驱动的）应用软件更有效地解决问题。经过几年的评估和试验后，我们正完全进入AI的部署阶段。今后几年，机器学习/AI产品会部署在整个企业，这一点很显然且不可避免。

一些产品将由内部团队使用上述企业AI平台构建和部署。其他产品将是各供应商提供的嵌入AI的全栈式产品，其中AI部分可能在很大程度上对客户不可见。还有一些产品由提供产品和服务组合的供应商来提供。

无论技术复杂程度方面还是产品方面，成熟度都在逐步提高。目前状态下的机器学习/AI能做什么、不能做什么，这点越来越清晰；我们开始对任务在机器和人类之间的正解分配有了更好的认识。比如说，下一代客户服务聊天机器人在机器人/AI与可配置性和透明度之间提供了极其智能化的组合，最终造福最终用户。

展望未来，随着机器学习/AI逐渐普及起来，并支持性能越来越高的数据堆栈，我们是否看到了完全自动化企业的曙光？

自IT出现以来，企业一直备受孤岛现象的困扰，各个系统和数据散布于各部门，无法彼此联系（这催生了庞大的系统集成服务行业），人类充当之间的“粘合剂”。在数据和系统日益整合的世界，机器学习/AI能够逐渐让人类从某些业务职能解放出来，现在比以往更有可能让企业以越来越自动化、系统化的方式运作。

比如设想一家自动化企业：需求的增加（通过机器学习来预测）自动触发供应商增加供货，这将自动记录在财务系统中（财务系统可自动计算和支付补偿奖金等）；或预期的需求减少可能自动触发绩效营销支出相应增加。

在将来，企业不仅成为完全自动化的组织，最终还会是自愈合、自主的。然而，我们离那个阶段还远着呢，今天基本上专注于RPA。这个类别炙手可热，如上所述，UI Path和Automation Anywhere等领导公司的发展非常快，完成了巨额融资。

RPA的全称是机器人流程自动化（不过它不利用任何实际的机器人），是指拿来通常很简单的工作流程——通常是手动（人类执行）且重复的流程，用软件取而代之。许多RPA出现在后台职能部门（比如发票处理）。

RPA得益于如火如荼的数字化转型（这个领域的几个领导品牌已存在多年，但是数字化转型成为热门话题时，突然迎来井喷式发展）。它还提供了丰厚的投资回报率，因为其实施可以直接与人类执行相同任务的成本进行比较。RPA对技术服务巨头们也很有吸引力，因为它涉及大量的实施服务（因为需要为无数不同的工作流程配置软件）；因此，RPA初创公司得益于与那些大型服务公司的密切合作关系。

有理由对RPA持怀疑态度。一些人认为RPA是基本上非智能的“创可贴”，或者某种权宜之计——拿来人类执行的低效工作流程，就让机器来执行。从这个角度来看，RPA可能只是带来了下一级技术债务，不清楚周围环境变化时自动化的RPA职能会发生什么变化。

上述的原因在于RPA更强调自动化而不是智能，更强制基于规则的解决方案而不是AI（尽管RPA供应商在提供AI时大搞营销噱头），至少在这个阶段如此。

应将RPA与智能自动化区分开来，后者是以机器学习/AI为中心的更新颖的类别。智能自动化还以企业流程和工作流为目标，但它以数据为中心而不是以流程为中心，最终能够学习、改进和治愈。

智能自动化的一个例子是智能文档处理（ADP），这个类别是指：可以利用机器学习/AI来解读文档（表格、发票和合同等），其理解能力不逊于人类，解读大规模文档除外。

今后几年这些领域值得观察，RPA和智能自动化可能会合并，除非后者的发展非常快，以至于限制了对前者的需求。

在商业智能（BI）领域，过去几个月的明显趋势是前面提到的合并不断，Tableau、Looker、Zoomdata和Clearstory被收购，SiSense与Periscope合并。

BI界会有更多的合并吗？微软凭Power BI占有强大地位，但当整个细分市场合并、每家公司都积极参与其中时，并购市场会呈现自己的状况。考虑到QuickSight BI通常被认为有点落后，AWS可能需要更强大的产品。

事后分析一下，BI界的合并在某种程度上不可避免，因为数据可视化和自助分析领域已商品化，有大量的专业供应商。无论大小，每家供应商都面临着实现多样化、增强功能的压力。对于云收购者而言，这些新产品线无疑会增加收入，但更重要的是，它们有增值能力，这是帮助创造核心平台收入的另一个工具。

先进制造业+工业互联网

产业智能官 AI-CPS

加入知识星球“产业智能研究院”：先进制造业OT（自动化+机器人+工艺+精益）和工业互联网IT（云计算+大数据+物联网+区块链+人工智能）产业智能化技术深度融合，在场景中构建“状态感知-实时分析-自主决策-精准执行-学习提升”的产业智能化平台；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

产业智能化平台作为第四次工业革命的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎；重构设计、生产、物流、服务等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态和新模式；引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能化技术分支用来的今天，制造业者必须了解如何将“智能技术”全面渗入整个公司、产品、业务等商业场景中， 利用工业互联网形成数字化、网络化和智能化力量，实现行业的重新布局、企业的重新构建和焕然新生。