Diffusion-based remote sensing (RS) generative foundation models are cruial for downstream tasks. However, these models rely on large amounts of globally representative data, which often contain redundancy, noise, and class imbalance, reducing training efficiency and preventing convergence. Existing RS diffusion foundation models typically aggregate multiple classification datasets or apply simplistic deduplication, overlooking the distributional requirements of generation modeling and the heterogeneity of RS imagery. To address these limitations, we propose a training-free, two-stage data pruning approach that quickly select a high-quality subset under high pruning ratios, enabling a preliminary foundation model to converge rapidly and serve as a versatile backbone for generation, downstream fine-tuning, and other applications. Our method jointly considers local information content with global scene-level diversity and representativeness. First, an entropy-based criterion efficiently removes low-information samples. Next, leveraging RS scene classification datasets as reference benchmarks, we perform scene-aware clustering with stratified sampling to improve clustering effectiveness while reducing computational costs on large-scale unlabeled data. Finally, by balancing cluster-level uniformity and sample representativeness, the method enables fine-grained selection under high pruning ratios while preserving overall diversity and representativeness. Experiments show that, even after pruning 85\% of the training data, our method significantly improves convergence and generation quality. Furthermore, diffusion foundation models trained with our method consistently achieve state-of-the-art performance across downstream tasks, including super-resolution and semantic image synthesis. This data pruning paradigm offers practical guidance for developing RS generative foundation models.


翻译:基于扩散模型的遥感生成基础模型对下游任务至关重要。然而,这些模型依赖大量具有全球代表性的数据,这些数据通常包含冗余、噪声和类别不平衡,从而降低了训练效率并阻碍收敛。现有的遥感扩散基础模型通常聚合多个分类数据集或应用简单的去重方法,忽视了生成建模的分布要求以及遥感影像的异质性。为应对这些局限,本文提出一种免训练的两阶段数据剪枝方法,能够在高剪枝比例下快速选取高质量数据子集,使初步基础模型快速收敛,并作为生成、下游微调及其他应用的通用骨干。我们的方法联合考虑了局部信息量与全局场景级多样性及代表性。首先,基于熵的准则高效移除低信息量样本。接着,利用遥感场景分类数据集作为参考基准,我们执行场景感知聚类与分层采样,以提升聚类效果,同时降低大规模未标注数据的计算成本。最后,通过平衡簇级均匀性与样本代表性,该方法能够在高剪枝比例下实现细粒度选择,同时保持整体多样性与代表性。实验表明,即使在剪除85%的训练数据后,我们的方法仍能显著提升收敛速度与生成质量。此外,采用本方法训练的扩散基础模型在下游任务(包括超分辨率和语义图像合成)中持续取得最先进的性能。这一数据剪枝范式为开发遥感生成基础模型提供了实用指导。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员