分层数据集选择：面向高质量数据共享的优化方法 (Hierarchical Dataset Selection for High-Quality Data Sharing)

The success of modern machine learning hinges on access to high-quality training data. In many real-world scenarios, such as acquiring data from public repositories or sharing across institutions, data is naturally organized into discrete datasets that vary in relevance, quality, and utility. Selecting which repositories or institutions to search for useful datasets, and which datasets to incorporate into model training are therefore critical decisions, yet most existing methods select individual samples and treat all data as equally relevant, ignoring differences between datasets and their sources. In this work, we formalize the task of dataset selection: selecting entire datasets from a large, heterogeneous pool to improve downstream performance under resource constraints. We propose Dataset Selection via Hierarchies (DaSH), a dataset selection method that models utility at both dataset and group (e.g., collections, institutions) levels, enabling efficient generalization from limited observations. Across two public benchmarks (Digit-Five and DomainNet), DaSH outperforms state-of-the-art data selection baselines by up to 26.2% in accuracy, while requiring significantly fewer exploration steps. Ablations show DaSH is robust to low-resource settings and lack of relevant datasets, making it suitable for scalable and adaptive dataset selection in practical multi-source learning workflows.

翻译：现代机器学习的成功依赖于高质量训练数据的获取。在许多实际场景中，例如从公共存储库获取数据或跨机构共享数据时，数据通常被组织成离散的数据集，这些数据集在相关性、质量和效用方面存在差异。因此，选择搜索哪些存储库或机构以获取有用数据集，以及将哪些数据集纳入模型训练，是至关重要的决策。然而，现有方法大多选择单个样本，并将所有数据视为同等相关，忽略了数据集及其来源之间的差异。在本研究中，我们形式化了数据集选择任务：从大规模异构数据池中选择完整数据集，以在资源约束下提升下游性能。我们提出了基于层级结构的数据集选择方法（DaSH），该方法在数据集和群组（例如数据集合、机构）两个层面建模效用，从而能够从有限观测中实现高效泛化。在两个公共基准测试（Digit-Five 和 DomainNet）中，DaSH 在准确率上优于当前最先进的数据选择基线方法，最高提升达 26.2%，同时所需探索步骤显著减少。消融实验表明，DaSH 对低资源环境和相关数据集缺失的情况具有鲁棒性，使其适用于实际多源学习工作流中可扩展且自适应的数据集选择。

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

ChatAug: 利用ChatGPT进行文本数据增强

专知会员服务

81+阅读 · 2023年3月4日

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

专知会员服务

25+阅读 · 2022年5月24日

AAAI2021 | 图神经网络的异质图结构学习，Heterogeneous Graph Structure Learning for Graph Neural Networks

专知会员服务

92+阅读 · 2021年1月20日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知会员服务

87+阅读 · 2020年8月28日