The goal of text ranking is to generate an ordered list of texts retrieved from a corpus in response to a query. Although the most common formulation of text ranking is search, instances of the task can also be found in many natural language processing applications. This survey provides an overview of text ranking with neural network architectures known as transformers, of which BERT is the best-known example. The combination of transformers and self-supervised pretraining has been responsible for a paradigm shift in natural language processing (NLP), information retrieval (IR), and beyond. In this survey, we provide a synthesis of existing work as a single point of entry for practitioners who wish to gain a better understanding of how to apply transformers to text ranking problems and researchers who wish to pursue work in this area. We cover a wide range of modern techniques, grouped into two high-level categories: transformer models that perform reranking in multi-stage architectures and dense retrieval techniques that perform ranking directly. There are two themes that pervade our survey: techniques for handling long documents, beyond typical sentence-by-sentence processing in NLP, and techniques for addressing the tradeoff between effectiveness (i.e., result quality) and efficiency (e.g., query latency, model and index size). Although transformer architectures and pretraining techniques are recent innovations, many aspects of how they are applied to text ranking are relatively well understood and represent mature techniques. However, there remain many open research questions, and thus in addition to laying out the foundations of pretrained transformers for text ranking, this survey also attempts to prognosticate where the field is heading.


翻译:文本排序的目标是生成一份有顺序的文本列表, 作为对质询的回应。 虽然最常用的文本排序提法是搜索, 但在许多自然语言处理应用程序中也可以找到任务实例。 本调查概述了神经网络结构的文本排序, 称为变压器, 最著名的例子是BERT。 变压器和自我监督的预培训相结合, 导致自然语言处理( NLP) 、 信息检索(IR) 等的范式转变。 在本次调查中, 我们综合了现有工作, 将其作为一个单一的入门点, 希望更好地了解如何将变压器用于文本排序问题, 以及希望在这一领域开展工作的研究人员。 我们涵盖一系列广泛的现代技术, 分为两大类: 在多阶段结构中进行重新排序的变压器模型和直接进行排序的密集的检索技术。 有两个主题: 处理长文档的技术, 除了NLP的典型的逐句处理外, 以及处理变压法基础的尝试, 以及处理变压法性结构的精度( ) (i. ) 质量 和变压前 和变压法的精度 的精度,,, 质量 和 和 质量 和变压法 等 等 等, 质量,, 和 质量, 和 质量 和 和 等 等 等 等 等 等,, 等,,,,,,,,,,,, 和 和 等, 等,, 等,,,,,,,,,,,,,,, 和 和,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 和,,,,,, 和,,,,,,,, 和,,, 和 和,,,,,,,, 和 和

1
下载
关闭预览

相关内容

【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
55+阅读 · 2021年3月3日
最新《Transformers模型》教程,64页ppt
专知会员服务
279+阅读 · 2020年11月26日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
30+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
一文理解Ranking Loss/Margin Loss/Triplet Loss
极市平台
15+阅读 · 2020年8月10日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
BERT-预训练的强大
微信AI
60+阅读 · 2019年3月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
3+阅读 · 2019年8月19日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
4+阅读 · 2019年2月18日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
55+阅读 · 2021年3月3日
最新《Transformers模型》教程,64页ppt
专知会员服务
279+阅读 · 2020年11月26日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
30+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
一文理解Ranking Loss/Margin Loss/Triplet Loss
极市平台
15+阅读 · 2020年8月10日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
BERT-预训练的强大
微信AI
60+阅读 · 2019年3月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Top
微信扫码咨询专知VIP会员