Dense retrieval, which describes the use of contextualised language models such as BERT to identify documents from a collection by leveraging approximate nearest neighbour (ANN) techniques, has been increasing in popularity. Two families of approaches have emerged, depending on whether documents and queries are represented by single or multiple embeddings. ColBERT, the exemplar of the latter, uses an ANN index and approximate scores to identify a set of candidate documents for each query embedding, which are then re-ranked using accurate document representations. In this manner, a large number of documents can be retrieved for each query, hindering the efficiency of the approach. In this work, we investigate the use of ANN scores for ranking the candidate documents, in order to decrease the number of candidate documents being fully scored. Experiments conducted on the MSMARCO passage ranking corpus demonstrate that, by cutting of the candidate set by using the approximate scores to only 200 documents, we can still obtain an effective ranking without statistically significant differences in effectiveness, and resulting in a 2x speedup in efficiency.


翻译:大量检索说明使用背景化语言模型,例如BERT,利用近邻(ANN)技术从收藏中查找文件,这种检索方式越来越受欢迎,出现了两组方法,这取决于文件和查询是否由单个或多个嵌入来代表。 ColBERT, 后者的范例,使用ANN指数和近似分数来确定每个插入的一套候选文件,然后使用准确的文件表述重新排序,这样,每个查询都可检索大量文件,这妨碍了方法的效率。我们调查使用ANN评分来排列候选文件,以便减少被完全评分的候选文件数量。在MSMARCO的排行榜上进行的实验表明,通过将大约的评分用于200份文件,我们通过将候选人的评分削减,仍然能够取得有效的排名,而不会在统计上出现显著的差异,并导致效率的2x加速。

0
下载
关闭预览

相关内容

专知会员服务
11+阅读 · 2021年7月6日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
专知会员服务
76+阅读 · 2021年3月16日
【最受欢迎的概率书】《概率论:理论与实例》,490页pdf
专知会员服务
162+阅读 · 2020年11月13日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
BERT相关论文、文章和代码资源汇总
AINLP
19+阅读 · 2018年11月17日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
3+阅读 · 2019年8月19日
Arxiv
5+阅读 · 2018年5月1日
VIP会员
Top
微信扫码咨询专知VIP会员