In the present work, we show that the performance of formula-driven supervised learning (FDSL) can match or even exceed that of ImageNet-21k and can approach that of the JFT-300M dataset without the use of real images, human supervision, or self-supervision during the pre-training of vision transformers (ViTs). For example, ViT-Base pre-trained on ImageNet-21k and JFT-300M showed 83.0 and 84.1% top-1 accuracy when fine-tuned on ImageNet-1k, and FDSL showed 83.8% top-1 accuracy when pre-trained under comparable conditions (hyperparameters and number of epochs). Especially, the ExFractalDB-21k pre-training was calculated with x14.2 fewer images compared with JFT-300M. Images generated by formulas avoid privacy and copyright issues, labeling costs and errors, and biases that real images suffer from, and thus have tremendous potential for pre-training general models. To understand the performance of the synthetic images, we tested two hypotheses, namely (i) object contours are what matter in FDSL datasets and (ii) an increased number of parameters for label creation improves performance in FDSL pre-training. To test the former hypothesis, we constructed a dataset that consisted of simple object contour combinations. We found that this dataset matched the performance of fractal databases. For the latter hypothesis, we found that increasing the difficulty of the pre-training task generally leads to better fine-tuning accuracy.


翻译:本研究证明,在视觉Transformer(ViT)预训练过程中,不使用真实图像、人工监督或自监督的情况下,公式驱动监督学习(FDSL)的性能可媲美甚至超越ImageNet-21k数据集,并接近JFT-300M数据集的表现。例如,在ImageNet-21k和JFT-300M上预训练的ViT-Base模型在ImageNet-1k微调后分别达到83.0%和84.1%的top-1准确率,而在可比条件(超参数与训练轮次)下通过FDSL预训练的模型取得了83.8%的top-1准确率。特别值得注意的是,ExFractalDB-21k预训练所使用的图像数量比JFT-300M减少了14.2倍。公式生成的图像避免了真实图像面临的隐私与版权问题、标注成本与误差以及数据偏见,因此在通用模型预训练方面具有巨大潜力。为探究合成图像的性能机制,我们验证了两个假设:(i)FDSL数据集中物体轮廓信息起关键作用;(ii)增加标签生成参数可提升FDSL预训练性能。针对第一个假设,我们构建了由简单物体轮廓组合构成的数据集,发现其性能与分形数据库相当。对于第二个假设,我们发现提高预训练任务的难度通常能带来更好的微调准确率。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
专知会员服务
41+阅读 · 2021年6月19日
AAAI2021 | 学习预训练图神经网络
专知会员服务
116+阅读 · 2021年1月28日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Arxiv
0+阅读 · 2025年12月29日
VIP会员
相关VIP内容
专知会员服务
41+阅读 · 2021年6月19日
AAAI2021 | 学习预训练图神经网络
专知会员服务
116+阅读 · 2021年1月28日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员