介绍
文本排序的目标是生成一个有序的文本列表,这些文本从语料库中检索,以响应针对特定任务的查询。虽然最常见的文本排序是搜索,但是在许多自然语言处理应用程序中也可以找到该任务的实例。本书提供了一个关于文本排序与被称为transformer的神经网络结构的概述,其中BERT是最著名的例子。毫不夸张地说,transformer和自我监督预训练的结合已经彻底改变了自然语言处理(NLP)、信息检索(IR)等领域。在文本排序的上下文中,这些模型跨许多领域、任务和设置产生高质量的结果。
在这本书中,我们为希望更好地理解如何将transformer应用到文本排序问题的从业者和希望从事这一领域工作的研究人员提供了现有工作的综合。我们涵盖了广泛的现代技术,分为两个高级类别:transformer模型,在多阶段排序架构中执行重新排序,以及学习了试图直接执行排序的密集表示。有许多属于第一类的例子,包括基于相关性分类、从文本的多个部分收集证据、语料库分析和序列到序列模型的方法。虽然第二类方法还没有得到很好的研究,但使用transformer的表示学习是一个新兴的、令人兴奋的方向,必将吸引更多的关注。在我们的书中有两个主题:处理长文档的技术(超出了NLP中使用的典型逐句处理方法)和处理效率(结果质量)和效率(查询延迟)之间权衡的技术。
尽管transformer架构和预训练技术是最近的创新,但它们如何应用于文本排序的许多方面已经得到了相对较好的理解,并代表了成熟的技术。然而,还有许多有待解决的研究问题,因此,除了为预先训练的transformer文本排序奠定基础外,本书还试图预测该领域的发展方向。
目录
部分内容概览