近年来,生成高保真真实感图像的能力取得了显著进展,特别是随着基于扩散模型(Diffusion-based Models)的技术发展。然而,人工智能生成图像(AI-generated images)的普及可能对机器学习社区带来尚未明确识别的副作用。同时,深度学习在计算机视觉领域的成功依赖于从互联网收集的大规模数据集。随着大量合成数据被添加到互联网上,未来研究人员可能难以收集到不含人工智能生成内容的“干净”数据集。已有研究表明,当训练数据集中包含合成图像污染时,模型的性能可能会显著下降。在本文中,我们探索了数据集污染对在线持续学习(Online Continual Learning, CL)研究的潜在影响。我们的实验结果表明,受污染的数据集可能阻碍现有在线CL方法的训练效果。为缓解合成图像对在线持续学习模型性能的负面影响,我们提出了一种新的方法:基于熵选择的真实-合成相似性最大化(Entropy Selection with Real-Synthetic Similarity Maximization, ESRM)。该方法的核心目标是在训练过程中减轻由合成图像污染导致的性能下降问题。实验结果表明,特别是在污染程度较高的情况下,我们的方法显著缓解了性能下降。为了保证可复现性,我们的工作源码已公开,地址为:https://github.com/maorong-wang/ESRM。

成为VIP会员查看完整内容
1

相关内容

【ICML2024】深度强化学习中的随机潜在探索
专知会员服务
17+阅读 · 7月19日
【NeurIPS2023】探索具有对抗环境设计的通用强化学习算法
【NeurIPS 2020】深度学习的不确定性估计和鲁棒性
专知会员服务
49+阅读 · 2020年12月8日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员