本文并没有提出一种新的方法,相反,鉴于最近计算机视觉的进展,我们研究了一个简单、渐进、但必须知道的基线:用于视觉Transformer的自监督学习。尽管标准卷积网络的训练方法已经非常成熟且鲁棒,然而ViT的训练方案仍有待于构建,特别是自监督场景下的训练极具挑战。

在这里,我们从基础出发,对训练自监督ViT的几种基本组件的影响进行了分析调研。我们发现:不稳定性是影响精确下降的最主要问题,它会被表面上好的结果覆盖(容易陷入局部最优)。我们通过实验发现:这些结果确实存在部分失败;当训练变得稳定时,这些结果可以进一步提升。基于MoCoV3以及其他自监督框架,我们从不同角度对ViT进行了测试分析;我们对观察到的积极面、挑战性以及开放问题进行了讨论,期望该工作可以为未来的研究提供有用的数据支撑和经验参考。

成为VIP会员查看完整内容
36

相关内容

自监督学习(self-supervised learning)可以被看作是机器学习的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
专知会员服务
79+阅读 · 2020年12月18日
【AACL2020】自监督学习的自然语言处理
专知会员服务
51+阅读 · 2020年12月12日
【DeepMind】CrossTransformers: 空间感知的小样本迁移
专知会员服务
38+阅读 · 2020年7月26日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
92+阅读 · 2020年6月19日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
CVPR 2018 最酷的十篇论文
AI研习社
6+阅读 · 2019年2月13日
Arxiv
0+阅读 · 2021年5月30日
Arxiv
11+阅读 · 2019年6月19日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Relational Graph Attention Networks
Arxiv
3+阅读 · 2019年4月11日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
专知会员服务
79+阅读 · 2020年12月18日
【AACL2020】自监督学习的自然语言处理
专知会员服务
51+阅读 · 2020年12月12日
【DeepMind】CrossTransformers: 空间感知的小样本迁移
专知会员服务
38+阅读 · 2020年7月26日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
92+阅读 · 2020年6月19日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
相关论文
Arxiv
0+阅读 · 2021年5月30日
Arxiv
11+阅读 · 2019年6月19日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Relational Graph Attention Networks
Arxiv
3+阅读 · 2019年4月11日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
5+阅读 · 2018年1月18日
微信扫码咨询专知VIP会员