Neural IR models have often been studied in homogeneous and narrow settings, which has considerably limited insights into their generalization capabilities. To address this, and to allow researchers to more broadly establish the effectiveness of their models, we introduce BEIR (Benchmarking IR), a heterogeneous benchmark for information retrieval. We leverage a careful selection of 17 datasets for evaluation spanning diverse retrieval tasks including open-domain datasets as well as narrow expert domains. We study the effectiveness of nine state-of-the-art retrieval models in a zero-shot evaluation setup on BEIR, finding that performing well consistently across all datasets is challenging. Our results show BM25 is a robust baseline and Reranking-based models overall achieve the best zero-shot performances, however, at high computational costs. In contrast, Dense-retrieval models are computationally more efficient but often underperform other approaches, highlighting the considerable room for improvement in their generalization capabilities. In this work, we extensively analyze different retrieval models and provide several suggestions that we believe may be useful for future work. BEIR datasets and code are available at https://github.com/UKPLab/beir.


翻译:为了解决这个问题,为了使研究人员能够更广泛地确立其模型的有效性,我们引入了一个信息检索的多样化基准BEIR(基准标志IR)。我们利用精心选择的17个数据集来评估包括开放域数据集在内的不同检索任务以及狭窄的专家领域。我们在BEIR的零弹式评价装置中研究了9个最先进的检索模型的有效性,发现在所有数据集中运行一致是具有挑战性的。我们的结果显示,BM25是一个强有力的基线,基于排名的模型总体上达到了最佳零弹性能,但计算成本很高。相比之下,Onse-Rererival模型的计算效率更高,但往往低于其他方法的完善程度。我们在此工作中,我们广泛分析了不同的检索模型,并提出了若干我们认为对未来工作可能有用的建议。BEIR数据集和代码可在 https://giubth./UKBABir/UKBABER.com查阅。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【ICML2020】对比多视角表示学习
专知会员服务
52+阅读 · 2020年6月28日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
79+阅读 · 2020年6月11日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
12+阅读 · 2019年12月27日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
VIP会员
Top
微信扫码咨询专知VIP会员