本文节选于百度副总裁、百度AI技术平台体系总负责人兼百度研究院院长、国际计算语言学协会(Association for Computational Linguistics)前主席王海峰先生在2017国际大数据产业技术创新高峰论坛的主题演讲《百度人工智能》,演讲精华内容整理如下。
后台回复关键词“王海峰”,下载王海峰演讲PPT。
从 18 世纪开始,随着技术的发展,以及需求的牵引,人类逐渐开始进入技术革命或工业革命。历史上的工业革命有三次,可以大致归纳为第一次机械化革命、第二次电气化革命和第三次的信息化革命,而第四次工业革命则是以智能化——人工智能(Artificial Intelligence,英文缩写为 AI)——为标志的。
回顾一下人工智能的发展历史,正式的起点是 1956 年的达特茅斯会议,诞生了 AI 这个概念。而在 1956 年之前,已经出现了至今仍然很热门的一些人工智能方向,例如机器翻译、自然语言处理、计算机下棋、神经网络等等。而从 AI 诞生以来的 60 多年,人工智能的发展起起落落,从下面的图中可见一斑。
过去 10 年,随着深度学习的出现,更重要的是“数据井喷”,以及数据支撑的算法和计算能力的突破,尤其是在语音、图像等领域,人工智能再次迎来了发展的新机遇。而这一次的复兴即将带动整个社会产生深层次的变革,这是我们已经可预见的未来。这次人工智能的爆发,在很大程度上是从互联网开始的,而互联网带来了很多需求,包括搜索、社交、购物等等。这些需求越来越多的线上化,同时带动了数据的线上化。
数据真正线上化以后,也带动了更多的算法去处理这些数据,而需求和数据的在线化也带动了整个生态的活跃,进而使越来越多的数据开放出来,依托更强大的计算平台,结合更好的 AI 算法,实现计算能力的突破。比如现在大家常用的 GPU,利用深度学习、深度神经网络算法,就有非常强大的优势。大数据、算法和大计算这三者俨然成为了人工智能复兴的必要条件。
百度从做搜索开始,人工智能的研究和发展已经有十几年了,如自然语言处理基础的分词、短语分析等。而全面布局人工智能大概是在七、八年以前,逐步从 NLP、语音、机器学习、图像等方面开始,时至今天,百度已经形成了一个较完整的人工智能技术布局,包括基础层、感知层、认知层、平台层、生态层和应用层,共计六层。
数据、算法和计算平台是基础。感知层对应人的视觉、听觉,这些能力是直接感知外界。认知层对应的是人类区别于其他生物特有的,比如人的语言能力、人类对知识的总结、理解、提炼、运用等等,以及对人的理解。AI 的开放平台不仅支持百度内部的应用还支持所有的合作伙伴,现已开放了 60 多个能力,在公司内部,每天大概有几千亿的调用量,而在外部也有数以亿计的调用。在此基础上,百度希望跟所有各行各业的合作伙伴一起打造技术的平台,形成良性循环的生态,从而生长出各种各样的创新应用。
百度从做互联网 To C(针对消费者)的产品到开始做大量支持 To B(面向企业服务)的应用。这些都依赖于人工智能技术布局的实现。下面将对每层技术布局的关键技术展开说明。
现在每一个人每一天会产生非常多的数据,如个人的行为、生理状态的变化,如果要监测、记录的话,都有非常庞大的数据。况且,每一个人每天都在跟互联网打交道,或者是自己建网站,或者向网上贡献数据,甚至在使用互联网过程中,也会产生很多数据。一定程度上,互联网已经成为整个客观世界的镜像。所以,掌握好、利用好、分析好这些互联网数据,在很大程度上也是对客观世界很重要的刻画和理解。
总体上,大数据技术分为几个方面,比如数据的采集、提炼以及应用。如果对一个零售商店数据里的用户进行建模,某一个用户可能是白领,另一个是主妇,这样的行业数据经过分析就可以帮助商户更好地进行营销行为。另一方面,百度基础的计算载体是数据中心,有 20 多个大型的数据中心,不只是在中国,在世界各地都设立了大数据中心,也有国内最大的 GPU 集群,有非常强的带宽和吞吐能力,还有像集装箱一样,模块化的计算中心。
语音技术的突破有很多方向,如识别、合成和唤醒,这是我们现在比较看重的,因为市场应用的需求很大。比如语音识别,已经达到 97% 以上的准确率。现在随着人工智能应用的深入,在家居场景、车载场景等等,越来越多的语音识别不是对着麦克风说,而是要有一定距离,这就涉及到远场的语音识别。这与现在手机上的麦克风不一样,首先会有定位,还有一系列新的技术待解决。合成想做得非常好,特别自然、流畅,而且可以是个性化的,包括把人的情绪变化等都带进去,就变得非常难。
这里不只是语音和声学信号处理问题,同时涉及到对语言的理解、对人的理解,这样才能做出有情绪、个性化的合成。唤醒,是需要设备的时候就叫一声,它就知道你要跟它说话,比如家居场景的一个智能音箱或者智能电视,这时候就需要唤醒技术。唤醒技术的困难在于我们要控制误唤醒,比如在家里放一个智能音箱,如果不叫它的时候,忽然之间它自己就跳起来了,或者睡觉的时候,有点外界噪音,它就忽然跳起来,体验会很差。所以,控制住误唤醒很重要也很有挑战。
图像方面,人脸识别是计算机视觉的一个重要方向。人脸分为静态和动态。静态,如一张图片,检测里面有没有人脸,或者有两张照片,比对一下两处出现的是不是同一个人,这方面的准确率已经很高了。而识别动态图像的时候更复杂一点,比如有一段视频,首先要定位这些人脸,而这里会产生很多应用,比如在很长的视频流里找到一个人。
另外,我们可以对图像进行识别匹配,做语义的标注,粒度很细,如一幅图里很具体地找到其中一个部分是什么,这里可以做很多细粒度的图像识别。OCR 是图像识别里相对具体的方向,如清华也有 OCR 方向做得非常好的老师和课题组。现在 OCR 技术不仅可以扫描书,更可以识别一个表格或者一个很复杂的结构,如发票,不但把里面的文字识别出来,还可以把一个区域识别出来的文字结构化,整体上会做很多定制化的识别。
视频不同于图像有很多权威的数据集,视频数据集本身还不够成熟。视频很多是人工标注好的,比如标题、内容,但是还有很多视频人工标注不够完善,这时候就需要视频语义理解技术把这个视频标注出来,包括这个视频到底是哪一类,视频的标题,如果相对长的视频,就把其中亮点怎么样也摘录出来。
机器人视觉涉及到怎么样做定位,做地图的重建,包括检测障碍物等等。领先的 SLAM 技术,有很多算法。前面讲的图像和视频技术,在机器人视觉里都会有应用。增强现实(AR/VR)是一个独立的方向,但是跟视觉技术有很多关系,通常拍一个照片,会触发出增强现实的效果,相应地会涉及到三维感知、跟踪、渲染等技术。
自然语言处理的范围广泛,如果细分的话,有很多子领域,较宏观地可划分为语言的理解和生成,以及相应的应用系统。一方面要理解人的语言,另一方面要表达,能生成语言。比如,基本的分词、短语分析,核心的解决思路就是做句法的分析和语义的理解或意图的理解。如搜索“想去一家宠物医院,医院附近要有停车位”。这是人的一种自然的表达,如果让计算机能够理解,就要把意图提取出来,从很复杂的话中分析出其核心意图,然后再去找相应的答案。
图示:用传统信息检索和搜索算法搜索“蒋英的女儿是谁”和“蒋英是谁的女儿”,会找到同样的答案,因为传统的信息检索是不管语序的。这时候我们就要做真正的自然语言分析和理解,知道它们实际上是在找不同的答案。这背后是知识图谱的支撑,大家可以看到结构化的图文并茂的结果。
我们看一篇文章、一本书,这时候不仅仅是理解其中每一句话,而是对整篇文章有一个理解,就是篇章的理解。篇章的理解,可以把整个篇章打上主题标签,打上各种实体标签,而这些对计算机来讲就是理解了这篇文章。在应用时,为了不同的应用,标签会有不同的形式,如用在资讯流里,打上这些标签以后,就可以匹配用户的兴趣,从而推荐给用户一篇他可能感兴趣的文章。
除了理解句子、篇章、文字以外,人写一句话、写一首诗亦或写一篇文章,都是带有情感倾向的,所以相应地,我们也做情感倾向的分析,包括用户看了一篇文章以后,下面有很多评论,这些评论本身我们也会做观点的抽取。
除了分析、理解以外,还有生成。我们尝试过写诗、写对联等,比如在手机百度信息流里看到的文章,很多都是人写的,但也有很大一部分是机器自动写成的。我们做过各种测试,用户基本上分辨不出来到底是人写的还是机器写的,这说明机器写的还是很不错的。其次,人要与智能硬件展开交互,对话过程中涉及到对“人说的话”的理解和预测人如何说下一句话,相当于理解和生成两方面都在用,这里面就是对话管理以及交互的技术。
到目前为止,我们讲的都是一种语言,都是中文,但“百度翻译”是解决多语言问题的,在 28 种语言之间互译,互译的方向大概是 700 多个,每天有过亿次的翻译请求。同时也结合了语音技术、视觉技术,延伸出了语音会话翻译、拍照翻译等等应用。
人类几千年传承下来的知识,是人类能一步一步不断向前进步的原动力,而做这些知识的累积和传承很重要的载体是知识图谱,知识图谱里面一些基本的单位,如实体,现在我们的知识图谱已经有几亿个实体,每个实体会有很多属性,实体与实体之间也会有很多关系,这些关系就构成很多事实,如 A 和 B 两个人可能是老师和学生的关系,这就是一个事实,我们已经积累了几千亿事实。
知识不只是静态的存取,而且涉及到知识计算和推理。比如,离圣诞节还有多少天,系统知道今天是哪一天,圣诞节是哪一天,系统会以此动态做一个计算。再比如,民航有一些规章,基于这些规章问一个问题,能不能“带打火机上飞机”,系统会根据这些规章的规则,判断这个问题的答案是“是”还是“否”。其次,我们要了解用户本身的需求,所以对用户画像也是非常重要的方向。现在百度积累了非常丰富的用户画像,有非常多细分的标签,如一个人可以从人口属性、行为习惯、长期兴趣、位置、短期意图等五个维度去刻画,形成初级的用户画像,构建个体模型。
这一层更多集中在百度大脑(ai.baidu.com),完整的生态包括云和端两大部分。百度云是很大的计算平台,不只是百度可以用,而且开放给所有的合作伙伴,变成基础的支撑平台,上面有百度大脑的各种能力。同时还有一些垂直的解决方案,比如基于自然语言的人机交互的新一代操作系统,以及与智能驾驶相关的 Apollo。整车厂商可以调用其中他们需要的能力,汽车电子厂商也可以调用他们需要的相应能力,大家共建整个平台和生态。
语音搜索,是典型的在搜索上引入一些 AI 能力之后的产品形态,这里不是一个“语音识别 + 简单的搜索”,而是我们直接语音输入我们想要的字的时候,如果出现多音字,如俪、莉,就会出现错误,但如果用户说:“茉莉的莉”,语音纠错就会自动修改成“莉”,然后找到用户最终想要的答案。所以这就需要很多相关技术的支持。图像搜索也是,我们做了很多图像搜索相关的尝试。
例如,找题很困难,很多学生做题,题里有图、有公式,想把内容输入进去就很难,所以拍照就变成特别方便的方式,这里就会结合 OCR 的技术,对图像做识别。智能问答、个性化推荐等同样是综合了多种 AI 能力,如知识图谱、NLP、用户理解等,把答案或资讯更直观、更有针对性地展现给用户。除了互联网应用,我们也在尝试 AI 能力与各行各业的结合,如智能客服、智慧机场等。
人工智能正在成为这个时代技术变革的核心驱动力,AI 在 To B 领域的渗入将会给各行各业带来革命性的改变,也会对人们的日常生活产生巨大的影响。人工智能应用广泛,其实际作用绝不仅仅在互联网,就像我们已经很难想象任何一个行业离开电该如何运转一样,人工智能也会是新时代的电力。
可以预见,人工智能必将无处不在。
本文系数据派 THU 原创文章,已经授权 InfoQ 公众号转发传播。
点击下方图片即可阅读
吴恩达每周工作 70 小时惹巨大争议,不过就是国内 996!
更多关于精彩技术专题请关注 QCon 全球软件开发大会,QCon 上海站 9 折优惠报名最后一周,2017 年 09 月 17 日前,立减 680 元,团购报名更多优惠~点击【阅读原文】跟技术大咖零距离。欲购票或咨询问题可联系购票经理 Hanna ,电话:15110019061,微信:qcon-0410。