信息检索的核心是从大规模资源中识别出相关信息,并以排序列表的形式返回,以响应用户的信息需求。近年来,随着深度学习的兴起,这一领域得到了极大的发展,神经信息检索(NeuIR)成为一个热门话题,尤其是预训练方法范式(PTMs)。预训练模型具有复杂的预训练目标和庞大的模型规模,可以从海量文本数据中学习通用语言表示,这有利于IR的排序任务。由于已经有大量的工作致力于PTMs在IR中的应用,我们认为现在是总结现状,学习现有方法,并获得一些对未来发展的见解的时候了。本文综述了信息检索系统中检索分量、重排序分量和其他分量的PTMs应用情况。此外,我们还介绍了专门为IR设计的PTMs,并总结了可用的数据集和基准排行榜。此外,我们讨论了一些开放的挑战和展望了一些有前途的方向,希望为未来的研究激发更多关于这些主题的工作。
导论
信息检索(IR)是许多实际应用中的一项基本任务,例如数字图书馆、Web搜索、问题回答系统等等。信息检索的核心是从大量的信息收集中识别出与用户信息需求相关的信息资源(如查询或问题)。由于可能有各种相关资源,返回的结果通常是根据文档与信息需求的相关性程度排列的文档列表。这种排序特性使其不同于其他任务,研究人员已经投入了大量的精力来开发各种IR排序模型。
在过去的几十年中,人们提出并研究了许多不同的排序模型,包括向量空间模型(Salton et al., 1975),概率模型(Robertson and Jones, 1976b),以及学习排序(LTR)模型(Li, 2011)。这些方法已经成功地应用于许多不同的IR应用中,例如谷歌这样的网络搜索引擎,今日头条这样的新闻推荐系统,Quora这样的社区问答平台等等。近年来,各种各样的神经排序模型被提出,促使了一个名为NeuIR(即神经信息检索)的热门话题。与以往依赖手工构造特征和统计方法的非神经模型不同,神经排序模型可以自动从数据中学习低维连续向量(即潜在表示)作为排序特征,从而避免了复杂的特征工程。尽管神经模型在IR中取得了成功,但一个主要的性能瓶颈在于大规模、高质量和标记的数据集的可用性,因为深度神经模型通常有大量的参数需要学习。
近年来,预训练方法(PTMs)带来了一场风暴,并推动了自然语言处理(NLP)的范式转变(Qiu et al., 2020)。其思想是首先通过自监督训练目标在大规模语料库中对模型进行预训练,然后对预训练模型进行微调,以实现最先进的性能。正如最近的工作所证明的那样(Peters等人,2018b;Howard和Ruder, 2018),这些预先训练的模型能够捕获相当数量的词汇知识和事实知识,这对下游任务是有益的,可以避免从头学习这些知识。此外,随着计算能力的增加和Transformer架构的出现(Vaswani et al., 2017),我们可以进一步将预训练模型的参数规模从百万级提升到十亿级(例如BERT (Devlin et al., 2018)和GPT-3 (Brown et al., 2020b)),甚至万亿级(例如,SwitchTransformers (Fedus et al ., 2021))。这两个特性都是在IR中对模型进行排序所需要的特性。目前,预训练的模型在具有自监督建模目标的大型文本语料库上进行预训练,能够更好地理解查询和文档语义背后的意图。另一方面,具有深度堆叠变换器的大规模预训练模型具有足够的建模能力来学习查询和文档之间的复杂关联模式。由于这些潜在的好处,加上预期在IR中使用PTMs也可以取得类似的成功,我们已经见证了在IR中利用PTMs 的研究兴趣的爆炸性增长(Croft et al., 2009; Manning et al., 2005)。注意,在这个综述中,我们关注的是文本检索中的PTMs,这是IR的核心。对基于内容的图像检索(Dubey, 2020)或多模态检索中PTMs感兴趣的读者可以参考(Fei et al., 2021)。
到目前为止,已有大量的研究致力于PTMs在IR中的应用。在学术上,研究者对PTMs在IR中的应用进行了各种创新和创新。例如,早期的尝试试图将从预训练模型中学习到的知识直接迁移到排序模型中,并取得了一些显著的成果(Nogueira and Cho, 2019; Dai and Callan, 2019b)。更近期的工作提出通过改变模型架构来推广现有的预训练模型(MacAvaney et al., 2020; Khattab and Zaharia, 2020; Gao and Callan, 2021a)或考虑新的预训练目标(Chang et al., 2019; Ma et al., 2021b; Ma et al., 2021c),较好地满足IR的要求。与此同时,在行业中,谷歌2019年10月的博客文章和Bing 2019年11月的博客文章都表明,预训练的排序模型(例如,基于BERT的模型)可以更好地理解查询意图,并在实际的搜索系统中提供更有用的结果。此外,看看今天的排行榜,我们可以看到,大多数排名靠前的方法都是基于PTMs构建的,只要看看这些提交的名称。考虑到在IR中关于PTMs的研究越来越多,我们认为现在是时候调查现状,学习现有方法,并为未来的发展获得一些见解。
本次综述的结构安排如下。我们将首先在第2节提供IR的系统概述。在此之后,我们在第3至5节中分别回顾了应用于检索组件、重新排序组件和其他组件的PTMs的工作。第六部分,我们介绍了为IR量身定做的新型PTMs的设计工作。我们还在第7部分总结了可用的大型数据集和流行的基准排行榜。最后,我们在第8节对本文进行了总结,并提出了一些未来研究的方向。