Yann LeCun曾说“如果人工智能是一个蛋糕,则蛋糕的主要成分就是无监督学习”。这句话反应了无监督学习在深度学习领域扮演着重要的作用。当前普遍的方法集中在如何设计有效的代理任务来对无标注的输入数据学习到好的视觉表征。在计算机视觉上,目前比较流行的直接有效的方法是对比学习,将训练数据的每个实例当做单一的分类。基于这个实力判别,很多自监督方法在分类任务上得到了有效的提升。他们成功弥补了自监督方法和监督方法的代沟。然而,这项任务仍然具有挑战:

a. 掩码语言模型在自然语言领域得到了广泛的应用。图像是高维特征,多噪声且相比于文本形式复杂。在视觉领域中,图像的主要信息会被随机分到不同的token中,如果这些token被随机masked掉,将会导致很差的表现。这个随机掩码语言模型容易掩盖图像的关键区域的token,这样会导致误判且不适合直接应用于自监督视觉Transformers。

b. 很多自监督方法是利用全局特征学习图像级别预测,对于像素级别预测优化不足。当前自监督学习方法也许对图像分类任务过度拟合,对下游密集任务预测表现效果不好。

https://www.zhuanzhi.ai/paper/51fc329856a3bcd21dfb8545d693e224

针对以上提出的问题,我们提出掩码Transformer自监督学习方法,如下图所示。MST创造性的引入了注意力特征图引导掩码策略并利用掩码特征来恢复全局图像特征任务。我们将介绍如何利用注意力特征引导掩码策略帮助掩码语言模型应用到视觉领域。最后我们将介绍网络的结构和实验细节。

成为VIP会员查看完整内容
41

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
GAN用于无监督表征学习,效果依然惊人……
机器之心
12+阅读 · 2019年7月9日
Fast-Slow Transformer for Visually Grounding Speech
Arxiv
0+阅读 · 2022年2月14日
Arxiv
0+阅读 · 2022年2月13日
Arxiv
9+阅读 · 2021年2月8日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
27+阅读 · 2018年4月12日
VIP会员
相关论文
Fast-Slow Transformer for Visually Grounding Speech
Arxiv
0+阅读 · 2022年2月14日
Arxiv
0+阅读 · 2022年2月13日
Arxiv
9+阅读 · 2021年2月8日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
27+阅读 · 2018年4月12日
微信扫码咨询专知VIP会员