论文标题 RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking 论文链接: https://arxiv.org/pdf/2110.07367.pdf 引言 信息检索是当今时代人们获取知识的重要途径,信息检索的核心问题是,对于用户提出的问题,如何快速、准确地从海量文本中找出与该问题相关的文档或文字片段(答案)。现有的信息检索系统通常包括两部分:召回(检索)阶段和精排阶段。这种“召回-精排”的两阶段检索pipeline已经被应用在多种下游任务中,如问答系统、对话系统和实体链指等,同时在工业界也有着非常广泛的应用。
在两阶段pipeline中,检索和精排共同影响着最终的检索效果。基于这种关系,最近已经有一些工作对检索和精排模型之间的关系进行研究,它们指出,这两个模型可以基于它们之间的依赖关系进行分别训练,从而达到更好的效果。那么,顺着这个思路,我们是否可以直接对这两个模型进行联合训练,通过一次训练过程,同时得到处于最优性能的检索和精排模型呢?
在这篇EMNLP 2021的工作中,我们介绍了一种对稠密段落检索和基于预训练语言模型的段落精排模型的联合训练方法RocketQAv2,提出了一种两个模型统一的训练方式,并提出动态列表式蒸馏(dynamic listwise distillation)方法和融合数据增强(hybrid data augmentation)方法,提升了检索模型和精排模型的效果,使其在不损失检索效率的同时,拥有更高的准确率,在实时检索场景下具有更高的可用性和可扩展性。