何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性 - 专知VIP

会员服务 ·

2

自监督学习 · 何恺明 · Transformer ·

2021 年 4 月 7 日

何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文并没有提出一种新的方法，相反，鉴于最近计算机视觉的进展，我们研究了一个简单、渐进、但必须知道的基线：用于视觉Transformer的自监督学习。尽管标准卷积网络的训练方法已经非常成熟且鲁棒，然而ViT的训练方案仍有待于构建，特别是自监督场景下的训练极具挑战。

在这里，我们从基础出发，对训练自监督ViT的几种基本组件的影响进行了分析调研。我们发现：不稳定性是影响精确下降的最主要问题，它会被表面上好的结果覆盖(容易陷入局部最优)。我们通过实验发现：这些结果确实存在部分失败；当训练变得稳定时，这些结果可以进一步提升。基于MoCoV3以及其他自监督框架，我们从不同角度对ViT进行了测试分析；我们对观察到的积极面、挑战性以及开放问题进行了讨论，期望该工作可以为未来的研究提供有用的数据支撑和经验参考。

成为VIP会员查看完整内容

37

相关内容

自监督学习

自监督学习

自监督学习（self-supervised learning）可以被看作是机器学习的一种“理想状态”，模型直接从无标签数据中自行学习，无需标注数据。

【ICLR2021】对未标记数据进行深度网络自训练的理论分析

【ICLR2021】对未标记数据进行深度网络自训练的理论分析

专知会员服务

26+阅读 · 2021年2月22日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【博士论文】深度预测学习问题与方法研究

专知会员服务

82+阅读 · 2020年12月18日

【AACL2020】自监督学习的自然语言处理

【AACL2020】自监督学习的自然语言处理

专知会员服务

52+阅读 · 2020年12月12日

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知会员服务

40+阅读 · 2020年7月26日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知

37+阅读 · 2020年7月26日

Google “推翻”无监督研究成果！斩获 ICML 2019 最佳论文

Google “推翻”无监督研究成果！斩获 ICML 2019 最佳论文

CSDN

4+阅读 · 2019年6月13日

每类13张标注图就可从头学分类器，DeepMind新半监督模型超越AlexNet

每类13张标注图就可从头学分类器，DeepMind新半监督模型超越AlexNet

机器之心

9+阅读 · 2019年5月31日

CVPR 2018 最酷的十篇论文

CVPR 2018 最酷的十篇论文

AI研习社

6+阅读 · 2019年2月13日

动态 | FAIR 最新论文：一种不需要训练就能探索句子分类的随机编码器

动态 | FAIR 最新论文：一种不需要训练就能探索句子分类的随机编码器

AI科技评论

3+阅读 · 2019年1月31日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

Facebook AI实验室何恺明等人提出视频识别SlowFast网络

Facebook AI实验室何恺明等人提出视频识别SlowFast网络

专知

3+阅读 · 2018年12月12日

何恺明等在图像识别任务上取得重大进展，这次用的是弱监督学习

何恺明等在图像识别任务上取得重大进展，这次用的是弱监督学习

人工智能头条

6+阅读 · 2018年5月3日

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

机器之心

4+阅读 · 2018年3月23日

【AAAI论文】阿里提出新图像描述框架，解决梯度消失难题

【AAAI论文】阿里提出新图像描述框架，解决梯度消失难题

新智元

5+阅读 · 2018年3月3日

CMV-BERT: Contrastive multi-vocab pretraining of BERT

Arxiv

0+阅读 · 2021年5月30日

Pre-training Universal Language Representation

Arxiv

0+阅读 · 2021年5月30日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

Improving Few-shot Text Classification via Pretrained Language Representations

Arxiv

3+阅读 · 2019年8月22日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Relational Graph Attention Networks

Relational Graph Attention Networks

Arxiv

3+阅读 · 2019年4月11日

Visualizing Attention in Transformer-Based Language Representation Models

Visualizing Attention in Transformer-Based Language Representation Models

Arxiv

3+阅读 · 2019年4月11日

Unsupervised Multilingual Word Embeddings

Arxiv

3+阅读 · 2018年8月27日

Fine-tuned Language Models for Text Classification

Arxiv

5+阅读 · 2018年1月18日

VIP会员

相关主题

自监督学习

相关VIP内容

【ICLR2021】对未标记数据进行深度网络自训练的理论分析

【ICLR2021】对未标记数据进行深度网络自训练的理论分析

专知会员服务

26+阅读 · 2021年2月22日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【博士论文】深度预测学习问题与方法研究

专知会员服务

82+阅读 · 2020年12月18日

【AACL2020】自监督学习的自然语言处理

【AACL2020】自监督学习的自然语言处理

专知会员服务

52+阅读 · 2020年12月12日

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知会员服务

40+阅读 · 2020年7月26日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知

37+阅读 · 2020年7月26日

Google “推翻”无监督研究成果！斩获 ICML 2019 最佳论文

Google “推翻”无监督研究成果！斩获 ICML 2019 最佳论文

CSDN

4+阅读 · 2019年6月13日

每类13张标注图就可从头学分类器，DeepMind新半监督模型超越AlexNet

每类13张标注图就可从头学分类器，DeepMind新半监督模型超越AlexNet

机器之心

9+阅读 · 2019年5月31日

CVPR 2018 最酷的十篇论文

CVPR 2018 最酷的十篇论文

AI研习社

6+阅读 · 2019年2月13日

动态 | FAIR 最新论文：一种不需要训练就能探索句子分类的随机编码器

动态 | FAIR 最新论文：一种不需要训练就能探索句子分类的随机编码器

AI科技评论

3+阅读 · 2019年1月31日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

Facebook AI实验室何恺明等人提出视频识别SlowFast网络

Facebook AI实验室何恺明等人提出视频识别SlowFast网络

专知

3+阅读 · 2018年12月12日

何恺明等在图像识别任务上取得重大进展，这次用的是弱监督学习

何恺明等在图像识别任务上取得重大进展，这次用的是弱监督学习

人工智能头条

6+阅读 · 2018年5月3日

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

机器之心

4+阅读 · 2018年3月23日

【AAAI论文】阿里提出新图像描述框架，解决梯度消失难题

【AAAI论文】阿里提出新图像描述框架，解决梯度消失难题

新智元

5+阅读 · 2018年3月3日

相关论文

CMV-BERT: Contrastive multi-vocab pretraining of BERT

Arxiv

0+阅读 · 2021年5月30日

Pre-training Universal Language Representation

Arxiv

0+阅读 · 2021年5月30日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

Improving Few-shot Text Classification via Pretrained Language Representations

Arxiv

3+阅读 · 2019年8月22日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Relational Graph Attention Networks

Relational Graph Attention Networks

Arxiv

3+阅读 · 2019年4月11日

Visualizing Attention in Transformer-Based Language Representation Models

Visualizing Attention in Transformer-Based Language Representation Models

Arxiv

3+阅读 · 2019年4月11日

Unsupervised Multilingual Word Embeddings

Arxiv

3+阅读 · 2018年8月27日

Fine-tuned Language Models for Text Classification

Arxiv

5+阅读 · 2018年1月18日

微信扫码咨询专知VIP会员