文本排序的目标是生成一个有序的文本列表,这些文本从语料库中检索,以响应针对特定任务的查询。虽然最常见的文本排序是搜索,但是在许多自然语言处理应用程序中也可以找到该任务的实例。本书提供了一个关于文本排序与被称为transformer的神经网络结构的概述,其中BERT是最著名的例子。毫不夸张地说,transformer和自我监督预训练的结合已经彻底改变了自然语言处理(NLP)、信息检索(IR)等领域。在文本排序的上下文中,这些模型跨许多领域、任务和设置产生高质量的结果。
在这本书中,我们为希望更好地理解如何将transformer应用到文本排序问题的从业者和希望从事这一领域工作的研究人员提供了现有工作的综合。我们涵盖了广泛的现代技术,分为两个高级类别:transformer模型,在多阶段排序架构中执行重新排序,以及学习了试图直接执行排序的密集表示。有许多属于第一类的例子,包括基于相关性分类、从文本的多个部分收集证据、语料库分析和序列到序列模型的方法。虽然第二类方法还没有得到很好的研究,但使用transformer的表示学习是一个新兴的、令人兴奋的方向,必将吸引更多的关注。在我们的书中有两个主题:处理长文档的技术(超出了NLP中使用的典型逐句处理方法)和处理效率(结果质量)和效率(查询延迟)之间权衡的技术。
尽管transformer架构和预训练技术是最近的创新,但它们如何应用于文本排序的许多方面已经得到了相对较好的理解,并代表了成熟的技术。然而,还有许多有待解决的研究问题,因此,除了为预先训练的transformer文本排序奠定基础外,本书还试图预测该领域的发展方向。
引言
文本排序的目标是生成一个有序的文本列表,这些文本从语料库中检索,以响应针对特定任务的查询。最常见的文本排序是搜索,搜索引擎(也称为检索系统)根据用户查询的估计相关性生成一个文本排序列表(网页、科学论文、新闻文章、tweet等)。在这种情况下,相关文本是那些“关于”用户请求的主题并满足用户信息需求的文本。信息检索(IR)的研究人员称之为临时检索问题。
使用关键字搜索,也称为关键字查询(例如,在web上),用户通常在搜索框(例如,在浏览器中)中键入一些查询词,然后返回包含排序文本表示的结果。这些结果被称为排名列表,点击列表,点击量,排序文本的表示通常包括标题、相关元数据、文本本身的摘要(例如,突出显示用户查询词的keyword -context摘要),以及到原始数据源的链接。虽然有很多关于文本排序问题的例子(参见1.1节),但是这种特殊的场景是普遍存在的,而且无疑是所有读者都熟悉的。
该综述提供了一种称为Transformer的神经网络结构的文本排序的概述,其中最著名的例子是谷歌的发明,即BERT(来自Transformers的双向编码器表示)[Devlin et al., 2019]。毫无夸张地说,BERT已经彻底改变了自然语言处理(NLP)和信息检索(IR)以及更广泛的人类语言技术(HLT)等领域,这是一个包罗万象的术语,包括处理、分析和使用(人类)语言数据的技术。在文本排序方面,BERT提供的结果在质量上无疑比之前的结果更好。