The success of modern machine learning hinges on access to high-quality training data. In many real-world scenarios, such as acquiring data from public repositories or sharing across institutions, data is naturally organized into discrete datasets that vary in relevance, quality, and utility. Selecting which repositories or institutions to search for useful datasets, and which datasets to incorporate into model training are therefore critical decisions, yet most existing methods select individual samples and treat all data as equally relevant, ignoring differences between datasets and their sources. In this work, we formalize the task of dataset selection: selecting entire datasets from a large, heterogeneous pool to improve downstream performance under resource constraints. We propose Dataset Selection via Hierarchies (DaSH), a dataset selection method that models utility at both dataset and group (e.g., collections, institutions) levels, enabling efficient generalization from limited observations. Across two public benchmarks (Digit-Five and DomainNet), DaSH outperforms state-of-the-art data selection baselines by up to 26.2% in accuracy, while requiring significantly fewer exploration steps. Ablations show DaSH is robust to low-resource settings and lack of relevant datasets, making it suitable for scalable and adaptive dataset selection in practical multi-source learning workflows.


翻译:现代机器学习的成功依赖于高质量训练数据的获取。在许多实际场景中,例如从公共存储库获取数据或跨机构共享数据时,数据自然地组织成离散的数据集,这些数据集在相关性、质量和效用方面存在差异。因此,选择搜索哪些存储库或机构以获取有用数据集,以及选择哪些数据集纳入模型训练,是至关重要的决策。然而,现有方法大多选择单个样本,并将所有数据视为同等相关,忽略了数据集及其来源之间的差异。在本研究中,我们形式化了数据集选择任务:从大规模异构数据池中选择完整的数据集,以在资源约束下提升下游性能。我们提出了基于层次结构的数据集选择方法(DaSH),该方法在数据集和群体(如数据集合、机构)两个层面建模效用,能够从有限观测中实现高效泛化。在两个公共基准测试(Digit-Five和DomainNet)中,DaSH在准确率上优于最先进的数据选择基线方法达26.2%,同时所需探索步骤显著减少。消融实验表明,DaSH对低资源设置和相关数据集缺失具有鲁棒性,使其适用于实际多源学习工作流中的可扩展自适应数据集选择。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【NeurIPS2023】半监督端到端对比学习用于时间序列分类
专知会员服务
36+阅读 · 2023年10月17日
专知会员服务
15+阅读 · 2021年7月21日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2025年12月29日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员