The success of modern machine learning hinges on access to high-quality training data. In many real-world scenarios, such as acquiring data from public repositories or sharing across institutions, data is naturally organized into discrete datasets that vary in relevance, quality, and utility. Selecting which repositories or institutions to search for useful datasets, and which datasets to incorporate into model training are therefore critical decisions, yet most existing methods select individual samples and treat all data as equally relevant, ignoring differences between datasets and their sources. In this work, we formalize the task of dataset selection: selecting entire datasets from a large, heterogeneous pool to improve downstream performance under resource constraints. We propose Dataset Selection via Hierarchies (DaSH), a dataset selection method that models utility at both dataset and group (e.g., collections, institutions) levels, enabling efficient generalization from limited observations. Across two public benchmarks (Digit-Five and DomainNet), DaSH outperforms state-of-the-art data selection baselines by up to 26.2% in accuracy, while requiring significantly fewer exploration steps. Ablations show DaSH is robust to low-resource settings and lack of relevant datasets, making it suitable for scalable and adaptive dataset selection in practical multi-source learning workflows.


翻译:现代机器学习的成功依赖于高质量训练数据的获取。在许多实际场景中,例如从公共存储库获取数据或跨机构共享数据时,数据通常被组织成离散的数据集,这些数据集在相关性、质量和效用方面存在差异。因此,选择搜索哪些存储库或机构以获取有用数据集,以及将哪些数据集纳入模型训练,是至关重要的决策。然而,现有方法大多选择单个样本,并将所有数据视为同等相关,忽略了数据集及其来源之间的差异。在本研究中,我们形式化了数据集选择任务:从大规模异构数据池中选择完整数据集,以在资源约束下提升下游性能。我们提出了基于层级结构的数据集选择方法(DaSH),该方法在数据集和群组(例如数据集合、机构)两个层面建模效用,从而能够从有限观测中实现高效泛化。在两个公共基准测试(Digit-Five 和 DomainNet)中,DaSH 在准确率上优于当前最先进的数据选择基线方法,最高提升达 26.2%,同时所需探索步骤显著减少。消融实验表明,DaSH 对低资源环境和相关数据集缺失的情况具有鲁棒性,使其适用于实际多源学习工作流中可扩展且自适应的数据集选择。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
30+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
30+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员