最近,自监督预训练范式在利用大规模无标记数据来提高下游任务性能方面显示出了巨大的潜力。然而,在现实场景中增加无标记预训练数据的规模,需要惊人的计算成本,并面临着未经策划的样本的挑战。为解决这些问题,本文从数据选择的角度构建了一个特定于任务的自监督预训练框架,基于一个简单的假设,对与目标任务分布相似的未标记样本进行预训练,可以带来实质性的性能提升。在该假设的支持下,通过引入数据选择的检索管道,提出了第一个可扩展和高效的视觉预训练(SEPT)的新框架。首先利用自监督预训练模型提取整个未标记数据集的特征,用于检索管道初始化;然后,针对特定的目标任务,基于每个目标实例的特征相似度,从无标记数据集中检索最相似的样本进行预训练;最后,使用选取的无标签样本对目标模型进行自监督预训练,实现目标数据微调。通过解耦预训练规模和目标任务的可用上游数据,SEPT实现了上游数据集的高可扩展性和预训练的高效性,从而实现了高模型架构灵活性。在各种下游任务上的结果表明,与ImageNet预训练相比,SEPT可以实现具有竞争力甚至更好的性能,同时将训练样本的大小减少一个量级,而不需要借助任何额外的注释。

成为VIP会员查看完整内容
11

相关内容

【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
【港科大博士论文】高效迁移学习的低资源自然语言理解
【CVPR2022】UniVIP:自监督视觉预训练的统一框架
专知会员服务
27+阅读 · 2022年3月16日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
45+阅读 · 2021年6月20日
专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
63+阅读 · 2021年4月11日
专知会员服务
40+阅读 · 2021年1月9日
NeurIPS 2022 | 稀疏且鲁棒的预训练语言模型
PaperWeekly
0+阅读 · 2022年11月11日
如何高效、精准地进行图片搜索?看看轻量化视觉预训练模型
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VIP会员
相关VIP内容
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
【港科大博士论文】高效迁移学习的低资源自然语言理解
【CVPR2022】UniVIP:自监督视觉预训练的统一框架
专知会员服务
27+阅读 · 2022年3月16日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
专知会员服务
45+阅读 · 2021年6月20日
专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
63+阅读 · 2021年4月11日
专知会员服务
40+阅读 · 2021年1月9日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员