Zero-shot dense retrieval is a challenging setting where a document corpus is provided without relevant queries, necessitating a reliance on pretrained dense retrievers (DRs). However, since these DRs are not trained on the target corpus, they struggle to represent semantic differences between similar documents. To address this failing, we introduce a training-free representation sharpening framework that augments a document's representation with information that helps differentiate it from similar documents in the corpus. On over twenty datasets spanning multiple languages, the representation sharpening framework proves consistently superior to traditional retrieval, setting a new state-of-the-art on the BRIGHT benchmark. We show that representation sharpening is compatible with prior approaches to zero-shot dense retrieval and consistently improves their performance. Finally, we address the performance-cost tradeoff presented by our framework and devise an indexing-time approximation that preserves the majority of our performance gains over traditional retrieval, yet suffers no additional inference-time cost.


翻译:零样本密集检索是一种具有挑战性的设定,其中文档语料库在缺乏相关查询的情况下被提供,因此必须依赖预训练的密集检索器(DRs)。然而,由于这些DRs并未在目标语料库上进行训练,它们难以表征相似文档之间的语义差异。为解决这一缺陷,我们引入了一种无需训练的表示锐化框架,该框架通过增强文档的表示信息,帮助其与语料库中相似文档区分开来。在涵盖多种语言的二十多个数据集上,该表示锐化框架始终优于传统检索方法,并在BRIGHT基准测试中创造了新的最先进水平。我们表明,表示锐化与先前的零样本密集检索方法兼容,并能持续提升其性能。最后,我们针对该框架带来的性能-成本权衡问题,设计了一种索引时近似方法,在保持对传统检索大部分性能增益的同时,不产生额外的推理时间成本。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员