会员服务 ·

AI变革下的“百度一下”

2018 年 11 月 2 日 量子位

允中李根发自凹非寺
量子位出品 | 公众号 QbitAI

百度世界大会，百度一年一度的技术和产品展示。

在今年的百度大会上，Apollo、DuerOS、信息流&手百等都产品均发布了自己与AI结合的最新进展。

作为百度最广为人知的核心业务，百度搜索也在AI技术的不断加持与变革中，进展飞快。

如今“百度一下”，有了崭新面貌。

AI变革，百度一下

在百度世界大会现场，搜索工程师们透露了最新进展。

他们认为，虽然搜索系统从被创造的第一天起就是一个人工智能系统，但是随着近年来深度学习技术的快速发展，在AI时代的搜索更加的智能化。

其中集成了人工智能领域在自然语言处理、机器学习、图像识别、视频理解、语音识别等方向的前沿算法以及高性能架构，变得更加的智能化。

也可以说：搜索是当前人工智能技术的集大成者。

具体则体现在三大方面：

对语义的理解更加精准，排序效果显著提升
Smart Answer的能力
从文本搜索向语音、视觉、视频等多模态搜索演进

而且，这些技术表现，也并非完全神龙见首不见尾，每一项技术之于产品的提升，其实并不是无迹可寻。

不妨一项项拆分理解。

AI变革-语义理解

这项可能要从搜索技术原理说起。

在深度学习加持之前，百度搜索更多的策略来自经验匹配规则和大数据挖掘和统计信号。

如：QUERY = ABC，工程师就会去找和ABC完全匹配的内容和结果。

算法上则是传统的BM25、proximity等人工算法，而更多Query语义理解和内容语义理解的问题，选择采用多层优化同义词挖掘、相关词挖掘、紧密度、重要性计算等等方法来解决。

但是，这种做法的较大不足在于错误传播，并且挖掘的方法的泛化效果较差，导致了很多语义相关的结果无法召回，同时系统对结果好坏上没有连续过渡的判断。

而如果运用深度学习，一切则变得不同。

通过深度学习技术，让多层神经网络可以自动从百度搜索海量的数据中去学习目标，抑制错误传播的问题，让更多语义相关的结果被召回和排序到合理的位置，更好的满足用户的搜索需求。

比如在用户搜索中，查询词 “用高温开水将勺子汤锅后，勺子上有一层灰” ，得到结果的过程中，就涉及语义理解。

搜索工程师透露，百度早在13年上线了深度语义理解模型，较好地解决了这类问题，深度模型能从海量的数据中自动学习到了“高温”和“开水”、“烫”之间的关联关系，同时也学到了“有一层灰”和“表面污垢”的相关性。

而如果采用传统匹配算法，在近义相关结果上，就很难将相关性算好。

正是得益于深度学习算法，最终帮助实现了排序算法提升，可以将优质的结果排上来，提升用户体验。

此外，早期语义计算还存在一些明显的不足和问题，全文内容信息未引入建模过程，导致建模并不充分。

进而会有两方面挑战：

一方面，已成功应用的模型多针对短文本进行建模，在长文本方面直接应用效果并不理想。

另一方面，对长文本进行在线计算、增加更多的匹配细节信息会导致模型运算量急剧提升，这对系统架构和运算能力是一个非常严峻的考验。

所以在模型和架构上，也必须要有相应对策。

百度搜索团队探索后给出2大针对性方案。

深度学习模型上，研发了Content-Matching-Matrix内容理解模型，首次成功刻画了索引对象内容的语义相关性，提供了语义匹配细节信息。

△ Content-Matching-Matrix内容理解模型结构示例

基础架构上，研发了Ranking-Service搜索智能化架构，首次将GPU引入大规模搜索引擎在线语义相关性计算中，实现了百度搜索上复杂语义模型的毫秒级运算。

△ Ranking-Service搜索智能化架构示例

此外，为了解决千亿级规模数据的深度学习训练挑战，以及内容语义理解模型的在线计算性能问题，百度搜索方面还专门设计了离在线混合架构，并部署了超大规模的GPU集群，使得复杂算子的实时在线计算延时减小了一个数量级，使其这些算法在线应用成为可能。

当然，投入成本之高也不难想见，只能说百度为提升搜索体验，在所不惜。

AI变革-Smart Answer

AI变革搜索的第二项表现是Smart Answer.

相比于传统URL Ranking，给予用户多条相关的搜索结果及摘要，让用户点击到落地页去寻找答案，直接给予用户答案满足的能力，是未来搜索产品智能化演进的一个重要方向，因此Smart Answer应运而生。

Smart Answer技术通过更强的用户需求理解和内容理解能力，通过对搜索结果及上下文进行分析，从搜索结果和知识库中提取满足用户问题的精准答案。

这种方式能够更好、更高效的满足用户搜索需求。

Smart Answer在百度有很多的场景，不仅仅是在搜索结果中。在用户浏览图文、视频内容的时候，可以为用户对内容中的信息的延伸满足。

更重要的是在AI时代，会有越来越多的远场语音交互的场景及视觉交互场景，在这些全新的智能硬件设备上，用户筛选、浏览的交互成本变大，而通过单条结果或交互问答的方式精准满足用户需求是能够更适合新场景的搜索结果形态。

而这样Top1直接满足的能力，从百度最新财报中披露，比例已超过40%。

并且不止于搜索和百度App中，包括在小度在家等产品中，应对一系列日常提问，也能看到不少Smart Answer的覆盖。

△ 搜索能力在端上以及DUEROS上的输出

AI变革-多模态搜索

最后，可能也是最直观的一项：多模态搜索。

即搜索方式到结果，从文本搜索向语音、视觉、视频等多模态搜索演进。

随着硬件、带宽以及智能设备的普及，越来越多的富媒体内容出现在了用户生活中，如图片、语音、视频等。

为了解决这部分需求，百度在2015年就开始提出了多模搜索的理念，包括输入和输出的多模态两个方面。

在输入方面，百度搜索认为语音和视觉是未来人们和搜索系统交互最重要的方式，除了传统打字以外，随着各类传感技术的发展，说话、拍照、动作、人脸等都是用户表达搜索需求的方式。

在输出方面，除了传统的图文网页结果，视频、全景图、3D模型、VR/AR等内容都是承载信息且让用户更直观、更易懂的需求满足形态。

基于对未来发展趋势的判断，百度搜索也加速语音搜索、视觉搜索、异构内容索引及理解等技术的演进。

而且最重要的是，多模态搜索，也会让用户更直直观感受AI带来的不同。

比如现在均已能在百度App中体验的语音搜索、拍照搜索、实时翻译、植物识别、视频搜索及AR等技术，均是百度多模思路下的AI研究和产品成果。

在语音搜索上，百度搜索集成了语音识别、语音合成、语义解等多项AI技术，让搜索引擎能“听”会“说”，不仅能够听清、听懂，还能深入理解语义，给出绘“声”绘色的最佳搜索答案，让搜索引擎与用户之间的交互方式变得更加自然、流畅、便捷。

在视觉搜索上，百度搜索综合了百度大脑在图像识别、人脸识别、OCR、物体检测、实体匹配等多项视觉技术，并依托于搜索系统对全网图像、视频内容的索引以及用户行为，得以细粒度的识别用户实时录制视频流、拍照及上传图片中的实体和文字，进而围绕实体在用户视觉场景下的需求，链接并组织相关内容及服务提供给用户，实现诸如拍题搜索、商品搜索、实时翻译、植物识别等智能视觉搜索能力。