从百度人工智能战略布局看AI架构

2017 年 9 月 20 日 AI前线 王海峰

编辑｜Vincent

本文节选于百度副总裁、百度AI技术平台体系总负责人兼百度研究院院长、国际计算语言学协会（Association for Computational Linguistics）前主席王海峰先生在2017国际大数据产业技术创新高峰论坛的主题演讲《百度人工智能》，演讲精华内容整理如下。

后台回复关键词“王海峰”，下载王海峰演讲PPT。

更多精彩文章请添加微信“AI 前线”（ID：ai-front）

人工智能是第四次工业革命

从 18 世纪开始，随着技术的发展，以及需求的牵引，人类逐渐开始进入技术革命或工业革命。历史上的工业革命有三次，可以大致归纳为第一次机械化革命、第二次电气化革命和第三次的信息化革命，而第四次工业革命则是以智能化——人工智能（Artificial Intelligence，英文缩写为 AI）——为标志的。

回顾一下人工智能的发展历史，正式的起点是 1956 年的达特茅斯会议，诞生了 AI 这个概念。而在 1956 年之前，已经出现了至今仍然很热门的一些人工智能方向，例如机器翻译、自然语言处理、计算机下棋、神经网络等等。而从 AI 诞生以来的 60 多年，人工智能的发展起起落落，从下面的图中可见一斑。

过去 10 年，随着深度学习的出现，更重要的是“数据井喷”，以及数据支撑的算法和计算能力的突破，尤其是在语音、图像等领域，人工智能再次迎来了发展的新机遇。而这一次的复兴即将带动整个社会产生深层次的变革，这是我们已经可预见的未来。这次人工智能的爆发，在很大程度上是从互联网开始的，而互联网带来了很多需求，包括搜索、社交、购物等等。这些需求越来越多的线上化，同时带动了数据的线上化。

数据真正线上化以后，也带动了更多的算法去处理这些数据，而需求和数据的在线化也带动了整个生态的活跃，进而使越来越多的数据开放出来，依托更强大的计算平台，结合更好的 AI 算法，实现计算能力的突破。比如现在大家常用的 GPU，利用深度学习、深度神经网络算法，就有非常强大的优势。大数据、算法和大计算这三者俨然成为了人工智能复兴的必要条件。

百度人工智能已经扬帆起航

百度从做搜索开始，人工智能的研究和发展已经有十几年了，如自然语言处理基础的分词、短语分析等。而全面布局人工智能大概是在七、八年以前，逐步从 NLP、语音、机器学习、图像等方面开始，时至今天，百度已经形成了一个较完整的人工智能技术布局，包括基础层、感知层、认知层、平台层、生态层和应用层，共计六层。

数据、算法和计算平台是基础。感知层对应人的视觉、听觉，这些能力是直接感知外界。认知层对应的是人类区别于其他生物特有的，比如人的语言能力、人类对知识的总结、理解、提炼、运用等等，以及对人的理解。AI 的开放平台不仅支持百度内部的应用还支持所有的合作伙伴，现已开放了 60 多个能力，在公司内部，每天大概有几千亿的调用量，而在外部也有数以亿计的调用。在此基础上，百度希望跟所有各行各业的合作伙伴一起打造技术的平台，形成良性循环的生态，从而生长出各种各样的创新应用。

百度从做互联网 To C（针对消费者）的产品到开始做大量支持 To B（面向企业服务）的应用。这些都依赖于人工智能技术布局的实现。下面将对每层技术布局的关键技术展开说明。

基础层：大数据、算法和大计算

现在每一个人每一天会产生非常多的数据，如个人的行为、生理状态的变化，如果要监测、记录的话，都有非常庞大的数据。况且，每一个人每天都在跟互联网打交道，或者是自己建网站，或者向网上贡献数据，甚至在使用互联网过程中，也会产生很多数据。一定程度上，互联网已经成为整个客观世界的镜像。所以，掌握好、利用好、分析好这些互联网数据，在很大程度上也是对客观世界很重要的刻画和理解。

总体上，大数据技术分为几个方面，比如数据的采集、提炼以及应用。如果对一个零售商店数据里的用户进行建模，某一个用户可能是白领，另一个是主妇，这样的行业数据经过分析就可以帮助商户更好地进行营销行为。另一方面，百度基础的计算载体是数据中心，有 20 多个大型的数据中心，不只是在中国，在世界各地都设立了大数据中心，也有国内最大的 GPU 集群，有非常强的带宽和吞吐能力，还有像集装箱一样，模块化的计算中心。

感知层：语音、图像、视频、AR/VR

语音技术的突破有很多方向，如识别、合成和唤醒，这是我们现在比较看重的，因为市场应用的需求很大。比如语音识别，已经达到 97% 以上的准确率。现在随着人工智能应用的深入，在家居场景、车载场景等等，越来越多的语音识别不是对着麦克风说，而是要有一定距离，这就涉及到远场的语音识别。这与现在手机上的麦克风不一样，首先会有定位，还有一系列新的技术待解决。合成想做得非常好，特别自然、流畅，而且可以是个性化的，包括把人的情绪变化等都带进去，就变得非常难。

这里不只是语音和声学信号处理问题，同时涉及到对语言的理解、对人的理解，这样才能做出有情绪、个性化的合成。唤醒，是需要设备的时候就叫一声，它就知道你要跟它说话，比如家居场景的一个智能音箱或者智能电视，这时候就需要唤醒技术。唤醒技术的困难在于我们要控制误唤醒，比如在家里放一个智能音箱，如果不叫它的时候，忽然之间它自己就跳起来了，或者睡觉的时候，有点外界噪音，它就忽然跳起来，体验会很差。所以，控制住误唤醒很重要也很有挑战。

图像方面，人脸识别是计算机视觉的一个重要方向。人脸分为静态和动态。静态，如一张图片，检测里面有没有人脸，或者有两张照片，比对一下两处出现的是不是同一个人，这方面的准确率已经很高了。而识别动态图像的时候更复杂一点，比如有一段视频，首先要定位这些人脸，而这里会产生很多应用，比如在很长的视频流里找到一个人。

另外，我们可以对图像进行识别匹配，做语义的标注，粒度很细，如一幅图里很具体地找到其中一个部分是什么，这里可以做很多细粒度的图像识别。OCR 是图像识别里相对具体的方向，如清华也有 OCR 方向做得非常好的老师和课题组。现在 OCR 技术不仅可以扫描书，更可以识别一个表格或者一个很复杂的结构，如发票，不但把里面的文字识别出来，还可以把一个区域识别出来的文字结构化，整体上会做很多定制化的识别。

视频不同于图像有很多权威的数据集，视频数据集本身还不够成熟。视频很多是人工标注好的，比如标题、内容，但是还有很多视频人工标注不够完善，这时候就需要视频语义理解技术把这个视频标注出来，包括这个视频到底是哪一类，视频的标题，如果相对长的视频，就把其中亮点怎么样也摘录出来。

机器人视觉涉及到怎么样做定位，做地图的重建，包括检测障碍物等等。领先的 SLAM 技术，有很多算法。前面讲的图像和视频技术，在机器人视觉里都会有应用。增强现实（AR/VR）是一个独立的方向，但是跟视觉技术有很多关系，通常拍一个照片，会触发出增强现实的效果，相应地会涉及到三维感知、跟踪、渲染等技术。

认知层：自然语言处理、知识图谱和用户画像

自然语言处理的范围广泛，如果细分的话，有很多子领域，较宏观地可划分为语言的理解和生成，以及相应的应用系统。一方面要理解人的语言，另一方面要表达，能生成语言。比如，基本的分词、短语分析，核心的解决思路就是做句法的分析和语义的理解或意图的理解。如搜索“想去一家宠物医院，医院附近要有停车位”。这是人的一种自然的表达，如果让计算机能够理解，就要把意图提取出来，从很复杂的话中分析出其核心意图，然后再去找相应的答案。

图示：用传统信息检索和搜索算法搜索“蒋英的女儿是谁”和“蒋英是谁的女儿”，会找到同样的答案，因为传统的信息检索是不管语序的。这时候我们就要做真正的自然语言分析和理解，知道它们实际上是在找不同的答案。这背后是知识图谱的支撑，大家可以看到结构化的图文并茂的结果。

我们看一篇文章、一本书，这时候不仅仅是理解其中每一句话，而是对整篇文章有一个理解，就是篇章的理解。篇章的理解，可以把整个篇章打上主题标签，打上各种实体标签，而这些对计算机来讲就是理解了这篇文章。在应用时，为了不同的应用，标签会有不同的形式，如用在资讯流里，打上这些标签以后，就可以匹配用户的兴趣，从而推荐给用户一篇他可能感兴趣的文章。

除了理解句子、篇章、文字以外，人写一句话、写一首诗亦或写一篇文章，都是带有情感倾向的，所以相应地，我们也做情感倾向的分析，包括用户看了一篇文章以后，下面有很多评论，这些评论本身我们也会做观点的抽取。

除了分析、理解以外，还有生成。我们尝试过写诗、写对联等，比如在手机百度信息流里看到的文章，很多都是人写的，但也有很大一部分是机器自动写成的。我们做过各种测试，用户基本上分辨不出来到底是人写的还是机器写的，这说明机器写的还是很不错的。其次，人要与智能硬件展开交互，对话过程中涉及到对“人说的话”的理解和预测人如何说下一句话，相当于理解和生成两方面都在用，这里面就是对话管理以及交互的技术。

到目前为止，我们讲的都是一种语言，都是中文，但“百度翻译”是解决多语言问题的，在 28 种语言之间互译，互译的方向大概是 700 多个，每天有过亿次的翻译请求。同时也结合了语音技术、视觉技术，延伸出了语音会话翻译、拍照翻译等等应用。

人类几千年传承下来的知识，是人类能一步一步不断向前进步的原动力，而做这些知识的累积和传承很重要的载体是知识图谱，知识图谱里面一些基本的单位，如实体，现在我们的知识图谱已经有几亿个实体，每个实体会有很多属性，实体与实体之间也会有很多关系，这些关系就构成很多事实，如 A 和 B 两个人可能是老师和学生的关系，这就是一个事实，我们已经积累了几千亿事实。

知识不只是静态的存取，而且涉及到知识计算和推理。比如，离圣诞节还有多少天，系统知道今天是哪一天，圣诞节是哪一天，系统会以此动态做一个计算。再比如，民航有一些规章，基于这些规章问一个问题，能不能“带打火机上飞机”，系统会根据这些规章的规则，判断这个问题的答案是“是”还是“否”。其次，我们要了解用户本身的需求，所以对用户画像也是非常重要的方向。现在百度积累了非常丰富的用户画像，有非常多细分的标签，如一个人可以从人口属性、行为习惯、长期兴趣、位置、短期意图等五个维度去刻画，形成初级的用户画像，构建个体模型。

平台以及生态层

这一层更多集中在百度大脑（ai.baidu.com），完整的生态包括云和端两大部分。百度云是很大的计算平台，不只是百度可以用，而且开放给所有的合作伙伴，变成基础的支撑平台，上面有百度大脑的各种能力。同时还有一些垂直的解决方案，比如基于自然语言的人机交互的新一代操作系统，以及与智能驾驶相关的 Apollo。整车厂商可以调用其中他们需要的能力，汽车电子厂商也可以调用他们需要的相应能力，大家共建整个平台和生态。

应用层

语音搜索，是典型的在搜索上引入一些 AI 能力之后的产品形态，这里不是一个“语音识别 + 简单的搜索”，而是我们直接语音输入我们想要的字的时候，如果出现多音字，如俪、莉，就会出现错误，但如果用户说：“茉莉的莉”，语音纠错就会自动修改成“莉”，然后找到用户最终想要的答案。所以这就需要很多相关技术的支持。图像搜索也是，我们做了很多图像搜索相关的尝试。

例如，找题很困难，很多学生做题，题里有图、有公式，想把内容输入进去就很难，所以拍照就变成特别方便的方式，这里就会结合 OCR 的技术，对图像做识别。智能问答、个性化推荐等同样是综合了多种 AI 能力，如知识图谱、NLP、用户理解等，把答案或资讯更直观、更有针对性地展现给用户。除了互联网应用，我们也在尝试 AI 能力与各行各业的结合，如智能客服、智慧机场等。

人工智能正在成为这个时代技术变革的核心驱动力，AI 在 To B 领域的渗入将会给各行各业带来革命性的改变，也会对人们的日常生活产生巨大的影响。人工智能应用广泛，其实际作用绝不仅仅在互联网，就像我们已经很难想象任何一个行业离开电该如何运转一样，人工智能也会是新时代的电力。

可以预见，人工智能必将无处不在。

本文系数据派 THU 原创文章，已经授权 InfoQ 公众号转发传播。

活动推荐

更多关于精彩技术专题请关注 QCon 全球软件开发大会，QCon 上海站 9 折优惠报名最后一周，2017 年 09 月 17 日前，立减 680 元，团购报名更多优惠～点击【阅读原文】跟技术大咖零距离。欲购票或咨询问题可联系购票经理 Hanna ，电话：15110019061，微信：qcon-0410。

登录查看更多

相关内容

王海峰

关注 3

王海峰，博士，现任百度CTO，AI技术平台体系(AIG)和基础技术体系（TG）总负责人，兼任百度研究院院长、深度学习技术及应用国家工程实验室主任。自然语言处理领域最具影响力的国际学术组织ACL（Association for Computational Linguistics）50多年历史上首位出任过主席的华人，唯一来自中国大陆的ACL Fellow，ACL亚太分会创始主席。IEEE Industry Advisory Board委员。兼任中国中文信息学会、中国电子学会、中国网络空间安全协会、类脑智能技术及应用国家工程实验室、新一代人工智能产业技术创新战略联盟、人工智能产业发展联盟等机构副理事长，大数据系统软件国家工程实验室技术委员会副主任，中国人工智能学会会士，新一代人工智能战略咨询委员会委员等。获国家科技进步奖二等奖一项（第一完成人），中国电子学会科技进步一等奖四项（均为第一完成人）。首届全国创新争先奖唯一来自互联网行业的获奖人。首个吴文俊人工智能杰出贡献奖唯一获奖人。享受国务院政府特殊津贴。已发表学术论文120余篇，获得中国和国际授权发明专利100余项。获中国专利银奖一项。

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

专知会员服务

162+阅读 · 2020年2月27日

【德勤】中国人工智能产业白皮书，68页pdf

专知会员服务

310+阅读 · 2019年12月23日

2019中国硬科技发展白皮书 193页

专知会员服务

86+阅读 · 2019年12月13日

【大数据白皮书 2019】中国信息通信研究院

专知会员服务

138+阅读 · 2019年12月12日