【干货书】神经信息检索，50页pdf

2022 年 7 月 29 日 专知

文本信息检索(IR)系统侧重于检索能够满足用户信息需求的文本文档，通常以文本查询的形式表示。多年来，这种固有的模糊描述已经形式化，并以文档、信息需求和用户的特定性质为特征。形式化的核心在于文档相对于查询的相关性概念，以及如何估计它们的相关性。多年来，已经提出了许多不同的排序模型来估计文档响应查询的相关性。这些模型依赖于查询和文档提供的信息，这些信息被用来派生“相关性信号”。多年来开发了许多排名模型，从布尔模型到概率和统计语言模型。这些“单词包”模型利用文档中查询词的存在或出现次数来推断它们与查询的相关性，并利用手工制作的函数来组合这些出现的查询，比如BM25。随着Web和社交平台的兴起，越来越多的与文档相关的信息来源被识别出来。机器学习方法已被证明能有效地处理这种丰富的关联信号，并将其应用于根据相关度估计对文档进行排序，从而产生了许多学习-排序(LTR)模型。关联信号是LTR模型的输入特征，通常是手工设计的，这是一个耗时的过程。由于神经网络在许多计算机视觉和自然语言处理任务上的突破，它们代表了当前最先进的方法来对文档和查询相关度进行排序。神经信息检索主要是利用深度神经网络检索能够满足用户信息需求的文本文档。在神经IR中，神经网络通常以两种不同的方式使用:学习结合相关信号的排序函数以产生文档排序，以及学习文档和查询的抽象表示以捕获它们的相关性信息。在接下来的文章中，我们将介绍神经IR的最新方法。由于该领域的研究正在迅速发展，我们不会涵盖神经IR的每一个方面，而是对该领域的主要思想和现有系统提供原则性的介绍。如果可以，我们会提供相关和更详细的调查链接。

下面是关于这部分内容的快速概述。第1节提供了在IR中采用的不同文本表示的简短描述，从经典的一热编码到学习-排序特征到单词嵌入。第2节介绍了用于计算查询和文档对的联合表示以进行相关性排名的主要神经体系结构。第3节关注专门为学习查询和文档文本的抽象复杂表示而定制的神经体系结构。第4节概述了神经IR系统中采用的部署方案，以及支持精确和近似最近邻搜索的最常见的密集检索索引。第5节讨论了学习稀疏检索中的当前方法，处理了对文档的低维表示的学习，这些文档可以存储在倒索引或类似的数据结构中。最后，第6节作结束语。