Learned sparse retrieval (LSR) is a family of first-stage retrieval methods that are trained to generate sparse lexical representations of queries and documents for use with an inverted index. Many LSR methods have been recently introduced, with Splade models achieving state-of-the-art performance on MSMarco. Despite similarities in their model architectures, many LSR methods show substantial differences in effectiveness and efficiency. Differences in the experimental setups and configurations used make it difficult to compare the methods and derive insights. In this work, we analyze existing LSR methods and identify key components to establish an LSR framework that unifies all LSR methods under the same perspective. We then reproduce all prominent methods using a common codebase and re-train them in the same environment, which allows us to quantify how components of the framework affect effectiveness and efficiency. We find that (1) including document term weighting is most important for a method's effectiveness, (2) including query weighting has a small positive impact, and (3) document expansion and query expansion have a cancellation effect. As a result, we show how removing query expansion from a state-of-the-art model can reduce latency significantly while maintaining effectiveness on MSMarco and TripClick benchmarks. Our code is publicly available at https://github.com/thongnt99/learned-sparse-retrieval


翻译:学习稀疏检索(LSR)是一类用于生成查询和文档的稀疏词汇表示的一阶段检索方法,用于反向索引。近来,许多LSR方法被引入,Splade模型在MSMarco上实现了最先进的性能。尽管它们的模型架构相似,但许多LSR方法在效果和效率方面存在巨大差异。使用的实验设置和配置的不同,使比较方法并获得洞察力变得困难。在这项工作中,我们分析现有的LSR方法,并确定关键组件,以建立一个LSR框架,将所有LSR方法统一在相同的视角下。然后,我们使用一个共同的代码库重新实现所有著名的方法,并在同一环境中对它们进行重新训练,这使我们能够量化框架的组件如何影响效果和效率。我们发现(1)包括文档术语加权对方法的有效性最重要,(2)包括查询加权具有小的正面影响,(3)文档扩展和查询扩展具有抵消效应。因此,我们展示了如何在MSMarco和TripClick基准测试中在保持有效性的同时显著减少状态下的模型的查询扩展的延迟。我们的代码公开在https://github.com/thongnt99/learned-sparse-retrieval。

0
下载
关闭预览

相关内容

NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
16+阅读 · 2021年11月25日
【NeurIPS2021】神经网络表示的相似度和匹配
专知会员服务
26+阅读 · 2021年10月29日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
15+阅读 · 2020年4月28日
【新书】深度学习搜索,Deep Learning for Search,附327页pdf
专知会员服务
204+阅读 · 2020年1月13日
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月10日
Arxiv
0+阅读 · 2023年5月10日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
VIP会员
相关VIP内容
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
16+阅读 · 2021年11月25日
【NeurIPS2021】神经网络表示的相似度和匹配
专知会员服务
26+阅读 · 2021年10月29日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
15+阅读 · 2020年4月28日
【新书】深度学习搜索,Deep Learning for Search,附327页pdf
专知会员服务
204+阅读 · 2020年1月13日
相关基金
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员