预训练如何用于信息检索？中科院计算所&清华新书《信息检索中的预训练方法》，109页pdf全面阐述预训练在信息检索的应用

2021 年 11 月 30 日 专知

【导读】预训练模型是当下关注的热点之一，在各种领域得到了广泛的应用。中科院计算所&清华发布新书稿《信息检索中的预训练方法》，综述了信息检索系统中检索分量、重排序分量和其他分量的PTMs应用情况。

信息检索的核心是从大规模资源中识别出相关信息，并以排序列表的形式返回，以响应用户的信息需求。近年来，随着深度学习的兴起，这一领域得到了极大的发展，神经信息检索(NeuIR)成为一个热门话题，尤其是预训练方法范式(PTMs)。预训练模型具有复杂的预训练目标和庞大的模型规模，可以从海量文本数据中学习通用语言表示，这有利于IR的排序任务。由于已经有大量的工作致力于PTMs在IR中的应用，我们认为现在是总结现状，学习现有方法，并获得一些对未来发展的见解的时候了。本文综述了信息检索系统中检索分量、重排序分量和其他分量的PTMs应用情况。此外，我们还介绍了专门为IR设计的PTMs，并总结了可用的数据集和基准排行榜。此外，我们讨论了一些开放的挑战和展望了一些有前途的方向，希望为未来的研究激发更多关于这些主题的工作。

https://www.zhuanzhi.ai/paper/3aab29ac4f1be3f14b8b0356ac90edc3

导论

信息检索(IR)是许多实际应用中的一项基本任务，例如数字图书馆、Web搜索、问题回答系统等等。信息检索的核心是从大量的信息收集中识别出与用户信息需求相关的信息资源(如查询或问题)。由于可能有各种相关资源，返回的结果通常是根据文档与信息需求的相关性程度排列的文档列表。这种排序特性使其不同于其他任务，研究人员已经投入了大量的精力来开发各种IR排序模型。

在过去的几十年中，人们提出并研究了许多不同的排序模型，包括向量空间模型(Salton et al.， 1975)，概率模型(Robertson and Jones, 1976b)，以及学习排序(LTR)模型(Li, 2011)。这些方法已经成功地应用于许多不同的IR应用中，例如谷歌这样的网络搜索引擎，今日头条这样的新闻推荐系统，Quora这样的社区问答平台等等。近年来，各种各样的神经排序模型被提出，促使了一个名为NeuIR(即神经信息检索)的热门话题。与以往依赖手工构造特征和统计方法的非神经模型不同，神经排序模型可以自动从数据中学习低维连续向量(即潜在表示)作为排序特征，从而避免了复杂的特征工程。尽管神经模型在IR中取得了成功，但一个主要的性能瓶颈在于大规模、高质量和标记的数据集的可用性，因为深度神经模型通常有大量的参数需要学习。

近年来，预训练方法(PTMs)带来了一场风暴，并推动了自然语言处理(NLP)的范式转变(Qiu et al.， 2020)。其思想是首先通过自监督训练目标在大规模语料库中对模型进行预训练，然后对预训练模型进行微调，以实现最先进的性能。正如最近的工作所证明的那样(Peters等人，2018b;Howard和Ruder, 2018)，这些预先训练的模型能够捕获相当数量的词汇知识和事实知识，这对下游任务是有益的，可以避免从头学习这些知识。此外，随着计算能力的增加和Transformer架构的出现(Vaswani et al.， 2017)，我们可以进一步将预训练模型的参数规模从百万级提升到十亿级(例如BERT (Devlin et al.， 2018)和GPT-3 (Brown et al.， 2020b))，甚至万亿级(例如，SwitchTransformers (Fedus et al ., 2021))。这两个特性都是在IR中对模型进行排序所需要的特性。目前，预训练的模型在具有自监督建模目标的大型文本语料库上进行预训练，能够更好地理解查询和文档语义背后的意图。另一方面，具有深度堆叠变换器的大规模预训练模型具有足够的建模能力来学习查询和文档之间的复杂关联模式。由于这些潜在的好处，加上预期在IR中使用PTMs也可以取得类似的成功，我们已经见证了在IR中利用PTMs 的研究兴趣的爆炸性增长(Croft et al., 2009; Manning et al., 2005)。注意，在这个综述中，我们关注的是文本检索中的PTMs，这是IR的核心。对基于内容的图像检索(Dubey, 2020)或多模态检索中PTMs感兴趣的读者可以参考(Fei et al.， 2021)。

到目前为止，已有大量的研究致力于PTMs在IR中的应用。在学术上，研究者对PTMs在IR中的应用进行了各种创新和创新。例如，早期的尝试试图将从预训练模型中学习到的知识直接迁移到排序模型中，并取得了一些显著的成果(Nogueira and Cho, 2019; Dai and Callan, 2019b)。更近期的工作提出通过改变模型架构来推广现有的预训练模型(MacAvaney et al., 2020; Khattab and Zaharia, 2020; Gao and Callan, 2021a)或考虑新的预训练目标(Chang et al., 2019; Ma et al., 2021b; Ma et al., 2021c)，较好地满足IR的要求。与此同时，在行业中，谷歌2019年10月的博客文章和Bing 2019年11月的博客文章都表明，预训练的排序模型(例如，基于BERT的模型)可以更好地理解查询意图，并在实际的搜索系统中提供更有用的结果。此外，看看今天的排行榜，我们可以看到，大多数排名靠前的方法都是基于PTMs构建的，只要看看这些提交的名称。考虑到在IR中关于PTMs的研究越来越多，我们认为现在是时候调查现状，学习现有方法，并为未来的发展获得一些见解。

本次综述的结构安排如下。我们将首先在第2节提供IR的系统概述。在此之后，我们在第3至5节中分别回顾了应用于检索组件、重新排序组件和其他组件的PTMs的工作。第六部分，我们介绍了为IR量身定做的新型PTMs的设计工作。我们还在第7部分总结了可用的大型数据集和流行的基准排行榜。最后，我们在第8节对本文进行了总结，并提出了一些未来研究的方向。

背景介绍

在本节中，我们以分层的方式描述了IR的基本概念和定义，并简要回顾了IR中的PTMs。本文的背景概述可以帮助读者了解到IR的基本概念，从而更好地理解PTMs如何有利于IR。如图所示，我们将搜索过程分层分解，从核心问题到框架，再到系统，以此来说明IR。具体来说，我们使用大写字母Q、D、F表示一组查询、文档和检索函数，小写字母Q、D、F分别表示一个特定实例。R表示关联估计模型，R表示针对发出的查询返回的搜索结果。

图1 IR的层次视图

图2 近期IR的PTMs。“橙色”、“绿色”和“蓝色”分别指的是“查询解析器”、“检索和重新排序”和“文档解析器和编码器”三个PTMs目标阶段。

检索组件中预训练方法的应用

从表示类型和索引模式的角度来看，语义检索模型可以分为三类:1)稀疏检索模型:通过获取语义捕获的稀疏表示来改进检索，并对其进行倒排索引，实现高效检索;2)密集检索模型(density Retrieval Models):将输入文本(即查询和文档)映射为独立的密集表示形式，采用近似最近邻(ANN)算法进行快速检索;3)混合检索模型:同时构建稀疏和密集检索模型，吸收稀疏和密集检索模型的优点，提高检索性能。

预训练方法在重排序构件中的应用

在本节中，我们回顾了在重新排序阶段应用PTMs的以前的工作。现代搜索引擎利用多阶段架构，以便有效地向用户提供准确的结果列表。

为IR设计的预训练方法

本文对IR中的PTMs进行了全面的综述，并对其未来的发展提出了一些建议。包括IR的背景，对在IR的不同组成部分应用PTMs的详细描述，以及相关资源的总结。具体地说，我们在分层视图中描述了IR的概念，并回顾了每个阶段的主要范式。我们深入研究了PTMs在IR系统中应用的不同组件，包括第一阶段检索组件、重新排序组件和其他组件。此外，我们描述了为IR量身定制的新型PTMs的设计工作。最后，我们强调了这一课题面临的几个挑战，并讨论了这一领域潜在的研究方向。希望本次调查能够帮助对IR中PTMs感兴趣的研究者，激发新的想法，进一步探索这个有前途的领域。

专知便捷查看