EMNLP 2021 | RocketQAv2：稠密段落检索和段落精排的联合训练方法 - 专知VIP

会员服务 ·

1

EMNLP · 信息检索 · 论文 ·

2021 年 10 月 24 日

EMNLP 2021 | RocketQAv2：稠密段落检索和段落精排的联合训练方法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文标题 RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking 论文链接： https://arxiv.org/pdf/2110.07367.pdf 引言信息检索是当今时代人们获取知识的重要途径，信息检索的核心问题是，对于用户提出的问题，如何快速、准确地从海量文本中找出与该问题相关的文档或文字片段（答案）。现有的信息检索系统通常包括两部分：召回（检索）阶段和精排阶段。这种“召回-精排”的两阶段检索pipeline已经被应用在多种下游任务中，如问答系统、对话系统和实体链指等，同时在工业界也有着非常广泛的应用。

在两阶段pipeline中，检索和精排共同影响着最终的检索效果。基于这种关系，最近已经有一些工作对检索和精排模型之间的关系进行研究，它们指出，这两个模型可以基于它们之间的依赖关系进行分别训练，从而达到更好的效果。那么，顺着这个思路，我们是否可以直接对这两个模型进行联合训练，通过一次训练过程，同时得到处于最优性能的检索和精排模型呢？

在这篇EMNLP 2021的工作中，我们介绍了一种对稠密段落检索和基于预训练语言模型的段落精排模型的联合训练方法RocketQAv2，提出了一种两个模型统一的训练方式，并提出动态列表式蒸馏（dynamic listwise distillation）方法和融合数据增强（hybrid data augmentation）方法，提升了检索模型和精排模型的效果，使其在不损失检索效率的同时，拥有更高的准确率，在实时检索场景下具有更高的可用性和可扩展性。

成为VIP会员查看完整内容

12

相关内容

EMNLP

自然语言处理顶级会议

【CIKM2021】联合优化查询编码器和乘积量化提高检索性能

专知会员服务

9+阅读 · 2021年9月16日

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

【KDD2021】基于预训练语言模型的百度搜索排序

专知会员服务

16+阅读 · 2021年8月19日

【ACL2021】为密集检索生成伪查询嵌入来改进文档表示

专知会员服务

7+阅读 · 2021年8月7日

【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索

【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索

专知会员服务

14+阅读 · 2021年2月25日

【AAAI2021】维基百科检索跳转来回答复杂的问题

【AAAI2021】维基百科检索跳转来回答复杂的问题

专知会员服务

15+阅读 · 2021年1月5日

【EMNLP2020】低资源域适应的多阶段预训练

专知会员服务

19+阅读 · 2020年10月13日

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

专知会员服务

30+阅读 · 2020年9月29日

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知

4+阅读 · 2021年10月3日

nlp中的实体关系抽取方法总结

nlp中的实体关系抽取方法总结

深度学习自然语言处理

22+阅读 · 2020年7月4日

【文本匹配】Question Answering论文

【文本匹配】Question Answering论文

深度学习自然语言处理

8+阅读 · 2020年4月20日

谈谈文本匹配和多轮检索

谈谈文本匹配和多轮检索

AINLP

5+阅读 · 2020年3月12日

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

PaperWeekly

26+阅读 · 2019年7月20日

赛尔原创 | ACL 2019 检索增强的对抗式回复生成

赛尔原创 | ACL 2019 检索增强的对抗式回复生成

哈工大SCIR

12+阅读 · 2019年7月4日

哈工大SCIR三篇论文被ACL 2019录用

哈工大SCIR三篇论文被ACL 2019录用

哈工大SCIR

17+阅读 · 2019年5月15日

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

开放知识图谱

16+阅读 · 2018年7月15日

问答系统冠军之路：用CNN做问答任务的QANet

问答系统冠军之路：用CNN做问答任务的QANet

AI科技评论

18+阅读 · 2018年5月11日

揭秘阿里小蜜：基于检索模型和生成模型相结合的聊天引擎 | PaperDaily #25

揭秘阿里小蜜：基于检索模型和生成模型相结合的聊天引擎 | PaperDaily #25

PaperWeekly

3+阅读 · 2017年12月13日

DOCmT5: Document-Level Pretraining of Multilingual Language Models

Arxiv

0+阅读 · 2021年12月16日

RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking

Arxiv

4+阅读 · 2021年10月14日

Advances in Multi-turn Dialogue Comprehension: A Survey

Arxiv

23+阅读 · 2021年10月11日

Multimodal Categorization of Crisis Events in Social Media

Multimodal Categorization of Crisis Events in Social Media

Arxiv

20+阅读 · 2020年4月10日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

CEDR: Contextualized Embeddings for Document Ranking

Arxiv

4+阅读 · 2019年8月19日

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Arxiv

3+阅读 · 2019年7月11日

HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph

Arxiv

3+阅读 · 2019年1月28日

Evolutionary Data Measures: Understanding the Difficulty of Text Classification Tasks

Evolutionary Data Measures: Understanding the Difficulty of Text Classification Tasks

Arxiv

4+阅读 · 2018年11月5日

Understanding Chatbot-mediated Task Management

Arxiv

10+阅读 · 2018年2月9日

VIP会员

相关主题

相关VIP内容

【CIKM2021】联合优化查询编码器和乘积量化提高检索性能

专知会员服务

9+阅读 · 2021年9月16日

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

【KDD2021】基于预训练语言模型的百度搜索排序

专知会员服务

16+阅读 · 2021年8月19日

【ACL2021】为密集检索生成伪查询嵌入来改进文档表示

专知会员服务

7+阅读 · 2021年8月7日

【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索

【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索

专知会员服务

14+阅读 · 2021年2月25日

【AAAI2021】维基百科检索跳转来回答复杂的问题

【AAAI2021】维基百科检索跳转来回答复杂的问题

专知会员服务

15+阅读 · 2021年1月5日

【EMNLP2020】低资源域适应的多阶段预训练

专知会员服务

19+阅读 · 2020年10月13日

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

专知会员服务

30+阅读 · 2020年9月29日

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能绝不能完全自主》

《人工智能的法律与伦理：军事自主机器独特挑战的深度剖析》316页

从数据到主导：AI与兵棋推演构筑决策优势

《特洛伊木马货柜：武器化集装箱的战略威胁》最新报告

相关资讯

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知

4+阅读 · 2021年10月3日

nlp中的实体关系抽取方法总结

nlp中的实体关系抽取方法总结

深度学习自然语言处理

22+阅读 · 2020年7月4日

【文本匹配】Question Answering论文

【文本匹配】Question Answering论文

深度学习自然语言处理

8+阅读 · 2020年4月20日

谈谈文本匹配和多轮检索

谈谈文本匹配和多轮检索

AINLP

5+阅读 · 2020年3月12日

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

PaperWeekly

26+阅读 · 2019年7月20日

赛尔原创 | ACL 2019 检索增强的对抗式回复生成

赛尔原创 | ACL 2019 检索增强的对抗式回复生成

哈工大SCIR

12+阅读 · 2019年7月4日

哈工大SCIR三篇论文被ACL 2019录用

哈工大SCIR三篇论文被ACL 2019录用

哈工大SCIR

17+阅读 · 2019年5月15日

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

开放知识图谱

16+阅读 · 2018年7月15日

问答系统冠军之路：用CNN做问答任务的QANet

问答系统冠军之路：用CNN做问答任务的QANet

AI科技评论

18+阅读 · 2018年5月11日

揭秘阿里小蜜：基于检索模型和生成模型相结合的聊天引擎 | PaperDaily #25

揭秘阿里小蜜：基于检索模型和生成模型相结合的聊天引擎 | PaperDaily #25

PaperWeekly

3+阅读 · 2017年12月13日

相关论文

DOCmT5: Document-Level Pretraining of Multilingual Language Models

Arxiv

0+阅读 · 2021年12月16日

RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking

Arxiv

4+阅读 · 2021年10月14日

Advances in Multi-turn Dialogue Comprehension: A Survey

Arxiv

23+阅读 · 2021年10月11日

Multimodal Categorization of Crisis Events in Social Media

Multimodal Categorization of Crisis Events in Social Media

Arxiv

20+阅读 · 2020年4月10日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

CEDR: Contextualized Embeddings for Document Ranking

Arxiv

4+阅读 · 2019年8月19日

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Arxiv

3+阅读 · 2019年7月11日

HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph

Arxiv

3+阅读 · 2019年1月28日

Evolutionary Data Measures: Understanding the Difficulty of Text Classification Tasks

Evolutionary Data Measures: Understanding the Difficulty of Text Classification Tasks

Arxiv

4+阅读 · 2018年11月5日

Understanding Chatbot-mediated Task Management

Arxiv

10+阅读 · 2018年2月9日

微信扫码咨询专知VIP会员