题目: Pre-training Tasks for Embedding-based Large-scale Retrieval

摘要:

我们考虑大型查询文档检索问题:给定一个查询(例如,一个问题),从大型文档语料库返回相关文档集(例如,包含答案的段落)。这个问题通常分两步解决。检索阶段首先减少解决方案空间,返回候选文档的子集。然后评分阶段重新排列文档。关键是,该检索算法不仅要求较高的查全率,而且要求具有较高的效率,能够及时返回与文档数量成次线性关系的候选对象。不像评分阶段,由于交叉注意力模型上的伯特式训练任务,最近取得了重大进展,检索阶段仍然没有得到很好的研究。以前的大部分工作依赖于经典的信息检索(IR)方法,如BM-25(令牌匹配+ TF-IDF权值)。这些模型只接受稀疏的手工特性,不能针对感兴趣的不同下游任务进行优化。本文对基于嵌入式的检索模型进行了全面的研究。我们证明了学习强嵌入式变压器模型的关键是训练前的任务集。通过充分设计分段级的预训练任务,变压器模型比广泛使用的BM-25模型以及没有变压器的嵌入模型有显著的改进。我们研究的分段式预训练任务包括Inverse Close Task(ICT)、Body First Selection(BFS)、Wiki Link Prediction(WLP)以及三者的结合。

成为VIP会员查看完整内容
27

相关内容

信息检索( Information Retrieval )指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。信息检索的目标:准确、及时、全面的获取所需信息。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
度量学习中的pair-based loss
极市平台
65+阅读 · 2019年7月17日
超越BERT、GPT,微软提出通用预训练模型MASS
机器之心
4+阅读 · 2019年5月10日
NLP预训练模型大集合!
机器之心
21+阅读 · 2018年12月28日
论文浅尝 | Zero-Shot Transfer Learning for Event Extraction
开放知识图谱
26+阅读 · 2018年11月1日
问答系统冠军之路:用CNN做问答任务的QANet
AI科技评论
18+阅读 · 2018年5月11日
干货|多重预训练视觉模型的迁移学习
机器学习算法与Python学习
4+阅读 · 2017年12月25日
Arxiv
6+阅读 · 2019年9月25日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
21+阅读 · 2019年3月25日
VIP会员
相关VIP内容
相关资讯
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
度量学习中的pair-based loss
极市平台
65+阅读 · 2019年7月17日
超越BERT、GPT,微软提出通用预训练模型MASS
机器之心
4+阅读 · 2019年5月10日
NLP预训练模型大集合!
机器之心
21+阅读 · 2018年12月28日
论文浅尝 | Zero-Shot Transfer Learning for Event Extraction
开放知识图谱
26+阅读 · 2018年11月1日
问答系统冠军之路:用CNN做问答任务的QANet
AI科技评论
18+阅读 · 2018年5月11日
干货|多重预训练视觉模型的迁移学习
机器学习算法与Python学习
4+阅读 · 2017年12月25日
微信扫码咨询专知VIP会员