We propose a design pattern for tackling text ranking problems, dubbed "Expando-Mono-Duo", that has been empirically validated for a number of ad hoc retrieval tasks in different domains. At the core, our design relies on pretrained sequence-to-sequence models within a standard multi-stage ranking architecture. "Expando" refers to the use of document expansion techniques to enrich keyword representations of texts prior to inverted indexing. "Mono" and "Duo" refer to components in a reranking pipeline based on a pointwise model and a pairwise model that rerank initial candidates retrieved using keyword search. We present experimental results from the MS MARCO passage and document ranking tasks, the TREC 2020 Deep Learning Track, and the TREC-COVID challenge that validate our design. In all these tasks, we achieve effectiveness that is at or near the state of the art, in some cases using a zero-shot approach that does not exploit any training data from the target task. To support replicability, implementations of our design pattern are open-sourced in the Pyserini IR toolkit and PyGaggle neural reranking library.


翻译:我们建议了一种处理文本排序问题的设计模式,称为“Expando-Mono-Duo”,这个模式已经对不同领域的若干临时检索任务进行了经验性验证。在核心方面,我们的设计依赖于标准多阶段排名结构中经过预先训练的顺序到顺序模型。“Expando”是指在倒置索引之前使用文件扩展技术来丰富文本的关键词表达方式。“Mono”和“Duo”是指基于一个点向模型和一种双向模型的重新排序管道中的组件,该模型对使用关键词搜索检索的初始候选人进行重新排序。我们介绍了MS MARCO通道和文件排序任务、TREC 2020深层学习轨道和TREC-COVID挑战的实验结果,以验证我们的设计。在所有这些任务中,我们都实现了处于或接近于艺术状态的效能,在某些情况下使用了不利用目标任务中的任何培训数据。为了支持复制,我们设计模式的实施是在Pyserini IR 工具包和 PyGagle 内层图书馆中公开提供的。

0
下载
关闭预览

相关内容

剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
49+阅读 · 2021年1月20日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
人工智能 | ACCV 2020等国际会议信息5条
Call4Papers
6+阅读 · 2019年6月21日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
人工智能 | UAI 2019等国际会议信息4条
Call4Papers
6+阅读 · 2019年1月14日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
人工智能 | AAAI 2019等国际会议信息7条
Call4Papers
5+阅读 · 2018年9月3日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
4+阅读 · 2019年2月18日
Learning to Focus when Ranking Answers
Arxiv
5+阅读 · 2018年8月8日
VIP会员
相关资讯
人工智能 | ACCV 2020等国际会议信息5条
Call4Papers
6+阅读 · 2019年6月21日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
人工智能 | UAI 2019等国际会议信息4条
Call4Papers
6+阅读 · 2019年1月14日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
人工智能 | AAAI 2019等国际会议信息7条
Call4Papers
5+阅读 · 2018年9月3日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
相关论文
Arxiv
5+阅读 · 2019年10月31日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
4+阅读 · 2019年2月18日
Learning to Focus when Ranking Answers
Arxiv
5+阅读 · 2018年8月8日
Top
微信扫码咨询专知VIP会员