搜索皆智能,搜索要用到大量的人工智能技术,所以我们要通过人工智能技术去理解用户的信息需求。同时,智能很复杂,智能的每一个任务都需要多多少少用到搜索技术。什么是智能?智能是关于连接的,我们需要把不同的数据、不同的知识点连接起来;智能是关于推理的,我们需要对数据、对知识进行相应的推理;智能是关于泛化的,我们有具体的观察,我们希望通过若干具体的观察、具体的例子来泛化来概括成通用的规律;智能还需要去做具体化,我们有一些通用的原则,要把它用到具体的事例里面,提高具体事例处理的效率和效果。所有这些都需要搜索相应的数据,搜索相应的知识,搜索相应的连接。所以智能皆搜索,智能离不开搜索,智能必须通过搜索来实现。下面举个一个我们KDD 2016论文中的例子来介绍我们怎么通过搜索来达到知识发现。我们可以在WordNet的网络上面找到很有意思的一些社团,每一个社团内部非常相似,社团成员之间有很强的关联,同时,社团之间非常对立,有非常大的差异。当我们把这个问题用在形容词网络里面,我们就找到了大家在胶片上看到的Group1和Group2这样对立的社团,所以我们把它叫做gangs in war。大家仔细看,每一个社团内部是一组同义组,Group1和Group2之间是反义词关系。我们用智能搜索带给我们新知识,我们可以在词的网络上自动发现同义词和反义词。刚才我们讲了搜索皆智能,智能皆搜索,所以智能和搜索是密不可分的,二者紧密结合,搜索和智能同行。这里包括两个意思,第一,我们需要用搜索的技术来达到更好的人工智能。像我刚才举的例子,我们可以通过很好的搜索来自动的发现知识,同时我们需要用很多的智能技术和计算来使得搜索更加有效。这里的智能不单单只是人工智能,还包括了很多真正的人的智能,因为我们最终的搜索是为人服务的。这里举一个例子,这是我们最近刚刚完成的一个论文,我们研究的是基于Web-scale的多语言问答系统。问答系统有很多,在很多商用的搜索引擎里面都有相应的问答功能。当一个用户给出一个问题,例如说想知道感冒症状,搜索引擎可以总结出像下图左边的信息卡,这个信息卡上会列出相应的感冒的症状甚至是治疗的方法。这给用户带来了很多的便利,在一定程度上这也是对知识的抽取和总结。当搜索引擎给出这样一个答案时,这个答案是否满足了用户的信息需求?这个答案的知识是否正确?是否有用?我们希望能够得到用户的反馈,我们希望用户用人的智能来帮助机器进行学习。这里有一个挑战。很多情况下,用户看过答案但并不一定给出一个显式的反馈,理解人的反馈是一个非常复杂的过程。在这篇论文里面,我们系统地研究了如何观察、推理用户对搜索引擎所给出的问答信息的反馈,如何对用户的行为进行挖掘,抽取相应的反馈信号,用这些信号来改进我们的QA系统。上图是在一个全球化商业搜索引擎数据集上面所做的实验结果。当我们的系统考虑了用户真正的已知反馈之后,整个搜索效果比不用这个反馈的系统好得多。同时,我们可以看到一个非常有意思的现象:这种智能搜索所发现的知识可以在不同的领域进行迁移。举个例子来说,在整个模型建立的过程中,我们用的是英语数据,在英语数据里面,我们抽取了相应的问答和相应的用户反馈。英语里发现的知识完全是可以往别的语言迁移,如德语和法语。迁移的效果很好,在法语的数据集上面我们用了很少的大概5K的数据就能够达到如果没有跨语言的迁移、没有反馈的时候需要用50K的数据才能达到的效果。也就是说,通过应用用户的反馈,我们能够大大减少相应的数据需求,我们的确可以通过智能化的方法理解用户,并让用户把人类智能来帮助我们的机器。我们的技术已经在一个大型商用搜索引擎的多语言服务中上线应用。 3
智能搜索,与人相关
因为搜索的主体是人,所以搜索并不简单是一个技术问题。最近在《纽约时报》有一篇很好的文章,题目就是Tech is global. right?:技术是全球化的,对吗?对,技术是全球化的。这篇文章谈到了很多先进的美国企业把相应的技术和平台用到别的国家和地区效果不好。这里面涉及到很多因素,特别是很多与人有关的因素,例如说本地化、可理解性、文化、公平性、隐私保护、模型的复杂性、安全性等等。如果我们要把智能搜索做好,就必须密切考虑人的因素。其中,深度学习模型的复杂性是一个重要的因素。我们最近刚刚完成了一篇KDD2020的论文在这方面做了一些探索。模型复杂性本身是一个很复杂的问题。在很多场合下,人们可能只是简单地比较两个模型之间的准确度或者别的一些性能指标,但哪怕两个模型的性能在测试集上是完全一样的,并不意味着这两个模型的本质是一样的,也不意味着它们捕捉了同样的客观现实。举个具体例子,上图这两个模型在相应的数据点上是完全一致的,但是这两个模型其实差得非常远。因此我们需要有一个系统的方法来衡量模型的复杂度、来衡量模型到底有没有对数据过拟合。我们的KDD2020上的论文就在这方面给出了一些新的方法。与模型和搜索方法很相关的另外一个问题是可解释性,一个模型要获得大家的信任,它必须有良好的可解释性。我们认为,模型的可解释性一定要满足两个原则。第一是准确性:如果我用一个模型来解释另外一个模型,那这两个模型必须在数学上等价。如果不等价,解释就可能会有问题。第二,模型的解释必须是一致的。一致是什么意思呢?如果我有两个非常相似的样例,它们相应的解释也应该非常相似,这才能够符合人的直觉。可解释性问题的核心是把一个黑盒子转化为一个白盒子。我们KDD2018的论文通过把一个深度网络转化为一个基于内部神经元状态的向量,给出基于多胞体(polytope)的解释。这样所得到的解释是精确的:从数学上解释的模型和原来的深度网络等价。同时,解释也是是一致的:如果两个点很相近,它们落在同一个多胞体里面,它们就会遵从相应的相同的线性分类器,所以它们的相应解释也会是一样的。在今年的ICDE论文中,我们把解释模型推到了云端。以往的解释工具往往需要知道整个模型的参数,甚至要知道相应的很多训练数据。在今年的ICDE论文里,我们提出可以把整个模型作为一个黑盒,然后给出准确和一致的解释,不需要知道模型的参数和训练数据。这里核心的想法是:如果我们有若干的样例,这些样例落在同一个多胞体里面,它们就应该遵循同一个线性分类器,于是我们可以建造一个线性方程式系统,用此来为我们提供相应的解释。关于怎么样把智能搜索做好,我们讲了很多。但是我们应该要充分认识到一点,智能搜索也在不断地改变我们的心智。在国外大家经常说这句话:如果你遇到一个不了解的事情怎么办? 用搜索引擎查一下(google it)。在国内也有俗语叫:内事问度娘,外事问谷歌。搜索的过程和结果很深刻地改变了人类的思维和学习方式。在某些方面搜索拓宽了我们获取信息的渠道和速度,使得我们更聪明。但在另一些方面,我们可能会过度依赖智能搜索,在很多地方会变得笨了。这里,信息的准确性和公平性变得非常重要。在这次的疫情当中,我们都知道虚假信息是非常严重的一个问题。很多小道消息、虚假消息通过社交媒体传播产生了很坏的作用。最近推特干了一件很有意思的事情,他们用了一个简单聪明的办法来对付虚假消息。他们观测到有很多人在社交媒体里面看到一个有意思的标题就转发了,但并没有看过那个文章。于是推特在你转发一个没有看过内容的推特时,提示用户其实没有看过这篇文章。这个提示对于降低虚假消息的传播会有很大的帮助。但是这种帮助是有代价的,它需要我们牺牲一定的隐私。推特需要知道你看过什么才知道你有没有看过自己转发的东西。这里有一个挑战性的均衡:我们到底需要保留什么样的隐私,怎么样制止虚假消息的传播。我们知道抖音在国内外都非常成功,已经出现了一代新的人类叫作Tik TOK Generation。它们通过智能的搜索和推荐技术把人与人连接起来,把内容和内容连接起来。在内容创造上Tik TOK Generation以及这类新媒体有一些重要的特点。其中之一就是媒体内容本身不是那么重要,反而对媒体的评论和媒体的跟进会更重要。大家经常跑到很多新媒体上并不是看它真正的内容,而是看后面跟着的评论。由于智能搜索和智能推荐技术的发展使得人与人之间的连接、内容与内容之间的连接、人与内容之间的连接更加容易、更加广泛。很多人原来并不需要互相认识,但是通过这个智能搜索和智能推荐他们会联系在一起,形成长期的交互,这就导致了我们现在面临着新一代所谓的热情经济。跟传统的零工经济经济相比,热情经济有一系列新特点。举例来说,热情经济从业者不断地产生新内容,不断地吸引更多的观众获得相应的营收,这是以往很多经济模式不具备的。同时由于智能搜索、智能推荐和平台的连接作用使受众面会大大提高,更多有创意的产品和服务可以以更低的成本推向服务市场,这些也给我们带来很多新机会和新挑战。热情经济完全是基于新的技术、新的软件、新的媒体。智能搜索是热情经济的核心技术,通过技术的进步使得平台更加有效、内容开发更加方便、创业更加快捷、创业者和受众的联系更加紧密、交互更加方便。智能搜索彻底改变了我们的生活。可以说智能搜索已经变成了我们无时无刻、无处不在的需求和工具。智能搜索同时也会产生很多新的挑战。其中一个核心的挑战是我们怎么确保智能搜索服务于社会的每一个人,没有人因为各种限制而被智能搜索遗弃。举个例子来说,老人们会不会因为不会用智能手机而享受不了智能搜索带来的红利?又比如说,残疾人、偏远地区和经济不发达地区的人们会不会因为达不到智能搜索的基础设施入门门槛而被抛弃?这些都是我们需要考虑的问题。我们都知道现在医院挂号经常需要用智能手机来预约,但是很多老人,特别是那些七八十岁、八九十岁的老人,并不会使用智能手机,用起来也很不方便。他们怎么才能获得信息渠道并消费这些信息?这些都是我们做智能搜索的人需要认真考虑和抓紧行动的方向。我个人认为智能搜索远远不仅仅是一个技术问题,也远远不仅仅是一个人工智能的问题,它是一个非常复杂的全社会的系统工程。 问答环节文继荣:对智能搜索和智能推荐来说,所谓的智能就是越来越了解你,以人为中心来了解你,它给你的信息越来越趋近于你过去的兴趣和经历,但是这样会不会使你失去了解这个世界多样性的可能?在整个大的框架方面或者在整个研究方向上面,有没有更多的深刻思考?裴健:智能搜索化、智能推荐已经成为下一代人类重要的信息入口,也是非常重要的信息出口。只能搜索把握了这一进一出,对未来的人类有很大的塑造能力。这也许是大家做技术的时候并没有特别深思的一个问题。我们一点一滴的技术贡献会怎样改变未来人类学习的方式、思考的方式和所知所行。这里面涉及很多问题。例如说我们可以通过可适应性使得我们的教育效率提高,使得一个人更容易学习。但是可适应性在一定程度下又可能有缺陷。我们如果过分迁就人类的惰性,就可能会使一部分最聪明的人失去了挑战更高高度的机会。再例如,到底让智能搜索受众学什么?怎么保证整个环境公平性?大家开始去思考,但是远远没有答案。我在演讲的最后也强调了这不是简单的技术问题,这是全社会的很复杂的问题。观众发问:感觉像谷歌、百度这些巨头已经形成了垄断,其它的搜索引擎或者其它的新的搜索工具经历了多年都没有成长起来。请问这些研究智能搜索方向的人除了到这些巨头公司工作以外,还有没有更好的出路?裴健:搜索仍在不断地创新,现在所有商用搜索引擎最头疼的事情是越来越多的高质量信息不在公开的互联网上,而在相对封闭的社交媒体上。例如说在朋友圈有很多质量高的信息源,但这种信息源是通用搜索引擎查不到的。怎样把这些信息源整合起来形成一种更强大的搜索能力?这是一个有意思的研究方向。现在很多的搜索跟广告、商业模式结合起来,是商业驱动、利润引导。最近原谷歌的两位高管创办了一个新公司,这个公司做的搜索引擎Neeva号称不会有广告,而且要打通一些社交媒体,使得搜索的面更广。这些新业务模式不管成功与否都是非常有意义的尝试。智能搜索从就业、创业的角度来说有很广阔的前景。同时智能搜索会涉及到我们生活中的方方面面,例如说在IOT环境下怎么做智能搜索?这些都是现有的面向通用web搜索所不能涵盖的,也会是很有意思的方面。文继荣:现在搜索引擎不管从主要的核心功能还是到形态上已经几十年没有变化了,实际上现在很多东西都在变,比如说裴老师讲的热情经济,还有国内的一个网红经济,现在都是影响非常大的。我昨天看了一个新闻说的非常好玩,浙江余姚区网红可以评为国家级创新人才,不知道真的假的。实际上这个世界在飞速的变化,可能很多时候你认为没有变化空间的时候就是会开始很大变化的时期。就搜索来说,我觉得就直观感受而言还远远达不到我们真正想要了解的世界。这次新冠病毒期间,我觉得甚至可以开一个研讨会来讨论一下这中间的很多问题,人们在获取信息时出现了很多问题,有虚假信息问题也有信息多样性问题。这些信息对大家的影响是巨大的,你可以经常感觉到整个朋友圈都在转发和讨论一个信息。尤其大家在家里没办法面对面交谈,你可以通过控制信息来控制大家的观点和情绪,这个事情我觉得是非常重要的。我们人类将来会走向更加数字化的阶段,从搜索和推荐的角度对信息进行获取和处理,我觉得我们到了一个全新的时期,我们需要去探索。