Few-shot dense retrieval (DR) aims to effectively generalize to novel search scenarios by learning a few samples. Despite its importance, there is little study on specialized datasets and standardized evaluation protocols. As a result, current methods often resort to random sampling from supervised datasets to create "few-data" setups and employ inconsistent training strategies during evaluations, which poses a challenge in accurately comparing recent progress. In this paper, we propose a customized FewDR dataset and a unified evaluation benchmark. Specifically, FewDR employs class-wise sampling to establish a standardized "few-shot" setting with finely-defined classes, reducing variability in multiple sampling rounds. Moreover, the dataset is disjointed into base and novel classes, allowing DR models to be continuously trained on ample data from base classes and a few samples in novel classes. This benchmark eliminates the risk of novel class leakage, providing a reliable estimation of the DR model's few-shot ability. Our extensive empirical results reveal that current state-of-the-art DR models still face challenges in the standard few-shot scene. Our code and data will be open-sourced at https://github.com/OpenMatch/ANCE-Tele.


翻译:少样本密集检索(DR)旨在通过学习少量样本有效地推广到新的搜索场景。尽管其重要性,但在专门的数据集和标准化评估协议方面研究较少。因此,当前方法经常从监督数据集中随机抽样以创建“少数据”设置,并在评估期间采用不一致的训练策略,这在准确比较最近的进展方面带来了挑战。在本文中,我们提出了一个定制的FewDR数据集和一个统一的评估基准。具体来说,FewDR采用类别抽样来建立一个标准化的“少样本”设置,具有精细定义的类别,减少了多个抽样回合的变异性。此外,该数据集被分为基础类别和新类别,使DR模型能够在基础类别的丰富数据和新类别中的少量样本上持续训练。该基准消除了新类别泄漏的风险,提供了DR模型少样本能力的可靠估计。我们广泛的实证结果表明,目前最先进的DR模型在标准少样本场景中仍面临挑战。我们的代码和数据将在https://github.com/OpenMatch/ANCE-Tele上开源。

0
下载
关闭预览

相关内容

专知会员服务
20+阅读 · 2021年8月9日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
19+阅读 · 2021年3月2日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2021年8月5日
Arxiv
35+阅读 · 2021年8月2日
VIP会员
相关VIP内容
专知会员服务
20+阅读 · 2021年8月9日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
19+阅读 · 2021年3月2日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员