百度世界大会,百度一年一度的技术和产品展示。
在今年的百度大会上,Apollo、DuerOS、信息流&手百等都产品均发布了自己与AI结合的最新进展。
作为百度最广为人知的核心业务,百度搜索也在AI技术的不断加持与变革中,进展飞快。
如今“百度一下”,有了崭新面貌。
在百度世界大会现场,搜索工程师们透露了最新进展。
他们认为,虽然搜索系统从被创造的第一天起就是一个人工智能系统,但是随着近年来深度学习技术的快速发展,在AI时代的搜索更加的智能化。
其中集成了人工智能领域在自然语言处理、机器学习、图像识别、视频理解、语音识别等方向的前沿算法以及高性能架构,变得更加的智能化。
也可以说:搜索是当前人工智能技术的集大成者。
具体则体现在三大方面:
对语义的理解更加精准,排序效果显著提升
Smart Answer的能力
从文本搜索向语音、视觉、视频等多模态搜索演进
而且,这些技术表现,也并非完全神龙见首不见尾,每一项技术之于产品的提升,其实并不是无迹可寻。
不妨一项项拆分理解。
这项可能要从搜索技术原理说起。
在深度学习加持之前,百度搜索更多的策略来自经验匹配规则和大数据挖掘和统计信号。
如:QUERY = ABC,工程师就会去找和ABC完全匹配的内容和结果。
算法上则是传统的BM25、proximity等人工算法,而更多Query语义理解和内容语义理解的问题,选择采用多层优化同义词挖掘、相关词挖掘、紧密度、重要性计算等等方法来解决。
但是,这种做法的较大不足在于错误传播,并且挖掘的方法的泛化效果较差,导致了很多语义相关的结果无法召回,同时系统对结果好坏上没有连续过渡的判断。
而如果运用深度学习,一切则变得不同。
通过深度学习技术,让多层神经网络可以自动从百度搜索海量的数据中去学习目标,抑制错误传播的问题,让更多语义相关的结果被召回和排序到合理的位置,更好的满足用户的搜索需求。
比如在用户搜索中,查询词 “用高温开水将勺子汤锅后,勺子上有一层灰” ,得到结果的过程中,就涉及语义理解。
搜索工程师透露,百度早在13年上线了深度语义理解模型,较好地解决了这类问题,深度模型能从海量的数据中自动学习到了“高温”和“开水”、“烫”之间的关联关系,同时也学到了“有一层灰”和“表面污垢”的相关性。
而如果采用传统匹配算法,在近义相关结果上,就很难将相关性算好。
正是得益于深度学习算法,最终帮助实现了排序算法提升,可以将优质的结果排上来,提升用户体验。
此外,早期语义计算还存在一些明显的不足和问题,全文内容信息未引入建模过程,导致建模并不充分。
进而会有两方面挑战:
一方面,已成功应用的模型多针对短文本进行建模,在长文本方面直接应用效果并不理想。
另一方面,对长文本进行在线计算、增加更多的匹配细节信息会导致模型运算量急剧提升,这对系统架构和运算能力是一个非常严峻的考验。
所以在模型和架构上,也必须要有相应对策。
百度搜索团队探索后给出2大针对性方案。
深度学习模型上,研发了Content-Matching-Matrix内容理解模型,首次成功刻画了索引对象内容的语义相关性,提供了语义匹配细节信息。
基础架构上,研发了Ranking-Service搜索智能化架构,首次将GPU引入大规模搜索引擎在线语义相关性计算中,实现了百度搜索上复杂语义模型的毫秒级运算。
此外,为了解决千亿级规模数据的深度学习训练挑战,以及内容语义理解模型的在线计算性能问题,百度搜索方面还专门设计了离在线混合架构,并部署了超大规模的GPU集群,使得复杂算子的实时在线计算延时减小了一个数量级,使其这些算法在线应用成为可能。
当然,投入成本之高也不难想见,只能说百度为提升搜索体验,在所不惜。
AI变革搜索的第二项表现是Smart Answer.
相比于传统URL Ranking,给予用户多条相关的搜索结果及摘要,让用户点击到落地页去寻找答案,直接给予用户答案满足的能力,是未来搜索产品智能化演进的一个重要方向,因此Smart Answer应运而生。
Smart Answer技术通过更强的用户需求理解和内容理解能力,通过对搜索结果及上下文进行分析,从搜索结果和知识库中提取满足用户问题的精准答案。
这种方式能够更好、更高效的满足用户搜索需求。
Smart Answer在百度有很多的场景,不仅仅是在搜索结果中。在用户浏览图文、视频内容的时候,可以为用户对内容中的信息的延伸满足。
更重要的是在AI时代,会有越来越多的远场语音交互的场景及视觉交互场景,在这些全新的智能硬件设备上,用户筛选、浏览的交互成本变大,而通过单条结果或交互问答的方式精准满足用户需求是能够更适合新场景的搜索结果形态。
而这样Top1直接满足的能力,从百度最新财报中披露,比例已超过40%。
并且不止于搜索和百度App中,包括在小度在家等产品中,应对一系列日常提问,也能看到不少Smart Answer的覆盖。
最后,可能也是最直观的一项:多模态搜索。
即搜索方式到结果,从文本搜索向语音、视觉、视频等多模态搜索演进。
随着硬件、带宽以及智能设备的普及,越来越多的富媒体内容出现在了用户生活中,如图片、语音、视频等。
为了解决这部分需求,百度在2015年就开始提出了多模搜索的理念,包括输入和输出的多模态两个方面。
在输入方面,百度搜索认为语音和视觉是未来人们和搜索系统交互最重要的方式,除了传统打字以外,随着各类传感技术的发展,说话、拍照、动作、人脸等都是用户表达搜索需求的方式。
在输出方面,除了传统的图文网页结果,视频、全景图、3D模型、VR/AR等内容都是承载信息且让用户更直观、更易懂的需求满足形态。
基于对未来发展趋势的判断,百度搜索也加速语音搜索、视觉搜索、异构内容索引及理解等技术的演进。
而且最重要的是,多模态搜索,也会让用户更直直观感受AI带来的不同。
比如现在均已能在百度App中体验的语音搜索、拍照搜索、实时翻译、植物识别、视频搜索及AR等技术,均是百度多模思路下的AI研究和产品成果。
在语音搜索上,百度搜索集成了语音识别、语音合成、语义解等多项AI技术,让搜索引擎能“听”会“说”,不仅能够听清、听懂,还能深入理解语义,给出绘“声”绘色的最佳搜索答案,让搜索引擎与用户之间的交互方式变得更加自然、流畅、便捷。
在视觉搜索上,百度搜索综合了百度大脑在图像识别、人脸识别、OCR、物体检测、实体匹配等多项视觉技术,并依托于搜索系统对全网图像、视频内容的索引以及用户行为,得以细粒度的识别用户实时录制视频流、拍照及上传图片中的实体和文字,进而围绕实体在用户视觉场景下的需求,链接并组织相关内容及服务提供给用户,实现诸如拍题搜索、商品搜索、实时翻译、植物识别等智能视觉搜索能力。
在实时翻译上,百度识图实现了一整套实时文字计算的移动端算法套件,包括文字发现、关键帧筛选、SLAM、OCR、NMT、MR等技术。
同时依托移动端深度学习计算框架,完成移动端部署。在这些技术的支持下,用户打开相机即可在画面内原文字位置直接看到翻译后的文字结果,让用户在实景文本翻译场景中,得到类人眼体验,更便捷高效实现”所见即所得”。
除了更全面的响应用户不同形态的输入,百度搜索也在全面对内容输出进行“升维”。
在过去,搜索引擎主要满足用户的内容,是提供包含相关图文的网页结果。
而随着当前内容生态的视频化爆发趋势,百度搜索认为视频作为一种新的通用信息载体,是更直观、易懂的内容形态,相比于图文有更大的信息容量,视频化的搜索能够让搜索更生动、更真实,同时具备与图文同样宽广的需求满足能力。
同时全景图、AR、VR等未来能进一步丰富人们获取信息方式的新内容形态,也是百度当前积极布局的新领域。
比如在需要更加沉浸化、空间感的场景,百度引入全景图资源,帮助用户更好的感知场景的真实信息,结合VR模式,可以达到身临其境的效果。
在需要更形象表达的场景,百度通过AR、3D展现的方式,帮助用户全方位了解事物的信息,帮助儿童更好的认知和学习。
通过百度搜索团队的介绍,可以看到,百度搜索在AI的加持下,在语义理解、smart answer、多模态搜索等领域上取得了重大的突破与卓越的成果。
凭借对用户需求深入骨髓的理解与专业精深的技术能力,百度搜索团队不懈努力,将过去只存在在科幻电影中的场景,一个个转化为了用户真正可以便捷使用的智能产品。
AI加持下的“百度一下”,正在变得更准确、更便捷,更全能。
— 完 —
加入社群
量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)
活动策划招聘
量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态