搜索引擎指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。

VIP内容

搜索引擎中的实体推荐关键技术研究

搜索引擎是获取信息的重要工具。近年来,为了更好地满足用户的信息获取 需求,搜索引擎从最初只能被动地根据查询返回相关网页,逐步改进到能够主动 地根据查询提供相关信息推荐。实体推荐,即以实体为粒度进行信息推荐,是其 中推荐粒度最细且信息量最丰富的一种信息推荐形式。实体推荐旨在为用户提供 与其查询存在直接或间接关系的实体列表,能够帮助用户拓展知识面,因而越来 越受到用户的欢迎。因此,实体推荐不仅成为现代搜索引擎必不可少的功能之一, 也正成为学术界重视的研究问题。

在搜索引擎实体推荐系统中,不仅需要为用户提供与其查询相关的实体推荐 结果,还需要对实体推荐结果进行恰当且合理的解释以帮助用户更好地理解推荐 结果。相应地,搜索引擎中的实体推荐研究主要包含以下两个方面:(1)实体推荐算法,其目标是获取与查询相关的实体集合并对其进行排序;(2)实体推荐的可 解释性,其目标是为实体推荐结果生成推荐理由,以提升推荐结果的可信度。针 对上述问题,本文研究了实体推荐算法的改进以及推荐理由的生成两个方面的关 键技术,具体包括:(1)适用于搜索引擎的大规模实体推荐算法,以及基于上下文 优化实体推荐算法的具体策略;(2)实体对推荐理由的识别,以及实体推荐理由 的生成。本研究的主要内容包括以下几个方面:

1. 基于排序学习与信息新颖性增强的实体推荐。构建适用于搜索引擎的大规 模实体推荐系统主要面临以下 4 个挑战:查询与实体规模庞大、查询的领域无关 性、用户实体点击数据极其稀疏以及很难为用户推荐具有信息新颖性的实体。针 对上述挑战,本文提出了一种基于排序学习框架的实体推荐算法,并围绕信息新 颖性设计了相关特征与优化目标。一方面可以灵活地对召回与排序进行分阶段优 化,另一方面可以直接基于查询并面向信息新颖性构建多种粒度的排序特征,进 而能针对不同用户偏好以及任何类型的查询,为用户提供个性化且兼具信息新颖 性的实体推荐结果,因此能够大幅显著提升实体推荐效果以及用户参与度。

2. 基于深度多任务学习的上下文相关实体推荐。针对目前实体推荐方法普遍 忽略上下文信息以及上下文相关实体点击数据存在数据稀疏问题,本文提出了一 种基于深度多任务学习的上下文相关实体推荐模型。一方面可以借助于上下文相 关文档排序这一辅助任务中的大规模多任务交叉数据,另一方面可以基于多任务 学习来实现知识迁移,进而有效缓解数据稀疏问题并提升实体推荐结果的相关性,因此能够显著提升推荐效果。

3. 基于卷积神经网络的实体对推荐理由识别。当推荐实体与查询实体之间存 在确定的实体关系时,将能够翔实地描述该实体对之间的关系的句子作为推荐理 由(简称为实体对推荐理由)展现给用户,可以帮助用户理解两个实体间的关系, 从而提升推荐结果的可信度。目前的实体对推荐理由识别方法严重依赖于人工标 注的数据集以及人工设计的排序特征,从而导致识别出的实体对推荐理由的质量 较低。针对上述问题,本文提出了一种基于卷积神经网络的实体对推荐理由识别 方法。一方面可以借助于搜索引擎点击日志自动构建大规模训练数据,另一方面 可以通过卷积神经网络自动学习排序特征,进而显著提升排序效果并带来实体对 推荐理由质量的显著提升。

4. 基于机器翻译模型的实体推荐理由生成。当推荐实体与查询之间不存在可 归类的关系时,将能够刻画推荐实体特点的简短描述作为推荐理由(简称为实体 推荐理由)展现给用户,可以帮助用户理清当前实体与查询间的关联,从而提升 推荐结果的可信度。然而,前人在实体推荐理由生成研究上鲜有涉猎。为此,本文 提出了基于机器翻译模型的实体推荐理由生成方法,尤其是提出了一种由实体信 息指导的基于序列到序列学习的实体推荐理由生成模型。一方面可以有效识别并 保留源句子中的重要信息,另一方面可以指引模型生成与实体相关的结果,从而 能够生成质量更高的实体推荐理由。

在应用方面,上述研究成果已在百度搜索引擎得到了大规模应用,取得了重 大的经济效益和社会效益,并获得了 2017 年中国电子学会科技进步一等奖。

成为VIP会员查看完整内容
0
23
Top