There has been a longstanding belief that generation can facilitate a true understanding of visual data. In line with this, we revisit generatively pre-training visual representations in light of recent interest in denoising diffusion models. While directly pre-training with diffusion models does not produce strong representations, we condition diffusion models on masked input and formulate diffusion models as masked autoencoders (DiffMAE). Our approach is capable of (i) serving as a strong initialization for downstream recognition tasks, (ii) conducting high-quality image inpainting, and (iii) being effortlessly extended to video where it produces state-of-the-art classification accuracy. We further perform a comprehensive study on the pros and cons of design choices and build connections between diffusion models and masked autoencoders.


翻译:传统的观点认为,生成模型可以帮助真正理解视觉数据。在最近denoising diffusion models的研究中,我们重新考虑了预训练视觉表示的生成式方法。虽然直接使用diffusion models进行预训练并不能产生强大的表示,但我们在输入上使用了遮罩,将diffusion models构建为遮罩自编码器(DiffMAE)。我们的方法能够(i)为下游识别任务提供强大的初始化,(ii)进行高质量的图像修复,并且(iii)很容易扩展到视频,其中它实现了最先进的分类准确性。我们进一步进行了全面的设计选择研究,并建立了diffusion models和遮罩自编码器之间的联系。

0
下载
关闭预览

相关内容

自动编码器是一种人工神经网络,用于以无监督的方式学习有效的数据编码。自动编码器的目的是通过训练网络忽略信号“噪声”来学习一组数据的表示(编码),通常用于降维。与简化方面一起,学习了重构方面,在此,自动编码器尝试从简化编码中生成尽可能接近其原始输入的表示形式,从而得到其名称。基本模型存在几种变体,其目的是迫使学习的输入表示形式具有有用的属性。自动编码器可有效地解决许多应用问题,从面部识别到获取单词的语义。
【CVPR2022】跨模态检索的协同双流视觉语言预训练模型
专知会员服务
20+阅读 · 2022年4月21日
【NeurIPS2021】NeRV:视频的神经表示
专知会员服务
11+阅读 · 2021年10月28日
人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
45+阅读 · 2021年9月27日
专知会员服务
46+阅读 · 2021年4月24日
最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
13+阅读 · 2022年10月27日
Arxiv
29+阅读 · 2022年9月10日
Arxiv
14+阅读 · 2022年8月25日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
21+阅读 · 2019年8月21日
VIP会员
相关论文
Arxiv
13+阅读 · 2022年10月27日
Arxiv
29+阅读 · 2022年9月10日
Arxiv
14+阅读 · 2022年8月25日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
21+阅读 · 2019年8月21日
相关基金
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员