在这次演讲中,我将分享一些我个人对神经IR领域进展的一些思考,以及一些我个人感到兴奋的正在进行的和未来的研究方向。本次演讲的内容将包括我自己在这一领域的研究,以及我作为MS MARCO基准测试和TREC深度学习跟踪的开发者/组织者的经验,以及我之前在必应(Bing)从事web规模搜索系统的应用研究员的经验。我这次演讲的目标是将话题从神经重排序模型转移到由深度学习驱动的更丰富、更大胆的搜索愿景。
神经信息检索导论
用于信息检索(IR)的神经排序模型使用浅神经网络或深度神经网络对搜索结果进行排序,以响应查询。传统的对模型进行排名的学习采用了监督机器学习(ML)技术——包括在手工制作的IR特征上的神经网络。相比之下,最近提出的神经模型从原始文本中学习语言表示,可以弥合查询词汇和文档词汇之间的差距。与传统的模型排序学习和非神经方法的IR不同,这些新的ML技术需要大量的数据,在部署之前需要大量的训练数据。本教程介绍了神经IR模型背后的基本概念和直觉,并将它们置于经典的非神经IR方法的背景下。我们首先介绍了检索的基本概念,以及文本向量表示的无监督学习的不同神经和非神经方法。然后,我们回顾了使用这些预先训练的神经向量表示的IR方法,而不学习IR任务端到端。接下来我们将介绍学习排名(LTR)框架,讨论用于排名的标准损失函数。接下来我们将概述深度神经网络(DNNs),包括标准架构和实现。最后,我们回顾了监督神经学习排序模型,包括最近的DNN体系结构训练端到端排序任务。最后,我们讨论了神经IR未来可能的发展方向。