谷歌MaskGIT|双向Transformer,图像生成新范式!

2022 年 2 月 14 日 极市平台
↑ 点击 蓝字  关注极市平台

作者丨rumor
来源丨李rumor
编辑丨极市平台

极市导读

 

本文提出了一种使用双向transformer解码器新的图像合成模式—MaskGIT。在推理时,该模型首先同时生成图像的所有标记,然后在前一代的基础上迭代地细化图像。实验表明,MaskGIT在ImageNet数据集上的性能明显优于最先进的transformer模型,并将自回归解码速度提高了64倍。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

图像生成长期以来一直被GAN所统治,虽然GAN的生成结果非常逼真,但在多样性方面却不如基于最大似然的方法(VAE、自回归模型等)。在去年,我们也看到了DALL-E、VQGAN等生成模型,模仿NLP的成功,利用Transformer来做图像生成,但这类方法有个很大的缺点,就是生成速度太慢了

Transformer-based的图像生成基本完全参考NLP处理序列数据的做法,需要两个步骤:

  1. Tokenization:自然语言都是离散值,而图像是连续值,想像NLP一样处理必须先离散化,iGPT里直接把图像变成一个个马赛克色块,ViT则是切成多块后分别进行线性映射,还有的方法专门学了一个自编码器,用encoder把图像映射成token,再用decoder还原
  2. Autoregressive Prediction:用单向Transformer一个个token地预测,最终生成图像

虽然这类方法的生成结果还可以,但是从直觉上却不那么顺溜。仔细想人是怎么画画的,大多数人肯定是先画个草稿,然后再逐步细化、填色,由整体到局部,而不是从上到下从左到右一个个像素去填充。MaskGIT的核心思想,就是参考人的作画逻辑,先生成一部分token,再逐渐去完善。

MaskGIT: Masked Generative Image Transformerhttps://arxiv.org/abs/2202.04200

MaskGIT

MaskGIT的模型结构如下:

对于Tokenization步骤,直接参考VQGAN的思路,学习一个encoder-decoder。主要的改进点在第二步上,在生成阶段,重复以下步骤:

  1. 并行预测所有被mask的部分,这时会给出一个概率最高的token和概率值
  2. 计算本轮要保留的token数目
  3. 根据数目倒推概率值,不满足条件的继续mask掉,回到步骤1重新生成

在训练阶段,不像BERT只mask掉15%,MaskGIT会随机选取各种值,来模拟生成阶段的情况。生成阶段的核心,就在于如何计算这一轮要mask多少token,这个schedule函数 有两个特性:

  1. 定义域在0到1之间、值域在0到1之间的连续函数

在对Linear、Concave、Convex三类函数实验后,发现Cosine是表现最好的:

从最终的效果可以看到,MaskGIT在图像质量上(FID、IS分数)接近当前最好的BigGAN,在速度上远胜VAGAN,在多样性(CAS分数)上超越了BigGAN:

同时作者发现,MaskGIT在编辑图像上有很大的潜力,尤其是class-conditioned image editing任务,自回归模型基本做不了,GAN来做也很难,对MaskGIT却十分容易,推动了一波鬼畜P图的发展(下面的例子让我深度怀疑作者是猫控)

总结

MaskGIT作者在文中说到,双向Transformer的启发源自于机器翻译的一些工作,不过这却是图像领域的第一篇工作。MaskGIT的出发点相比单向自回归,在图像生成上更加make sense,相信之后也看到一些相关改进。其中我想到一点,也是从直觉上出发的,我们人在画画时,免不了对草图的涂改,而MaskGIT是没有涂改机会的,有没有更好的soft mask方式,或者迭代策略,可以对已经生成完的token进行迭代,这样说不定就能超过GAN的生成质量了。


公众号后台回复“数据集”获取30+深度学习数据集下载~

△点击卡片关注极市平台,获取 最新CV干货
极市干货
数据集资源汇总: 10个开源工业检测数据集汇总 21个深度学习开源数据集分类汇总
算法trick 目标检测比赛中的tricks集锦 从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks
技术综述: 一文弄懂各种loss function 工业图像异常检测最新研究总结(2019-2020)


CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart4)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~


觉得有用麻烦给个在看啦~   
登录查看更多
2

相关内容

ICLR 2022 | BEIT论文解读:将MLM无监督预训练应用到CV领域
专知会员服务
32+阅读 · 2022年3月24日
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
31+阅读 · 2022年3月12日
【ICLR2022】序列生成的目标侧数据增强
专知会员服务
22+阅读 · 2022年2月14日
专知会员服务
60+阅读 · 2021年2月16日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
谷歌提出MaskGIT:掩码生成图像Transformer
CVer
2+阅读 · 2022年3月21日
当可变形注意力机制引入Vision Transformer
极市平台
1+阅读 · 2022年1月23日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
一文详解Google最新NLP模型XLNet
PaperWeekly
18+阅读 · 2019年7月1日
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
基础 | 基于注意力机制的seq2seq网络
黑龙江大学自然语言处理实验室
16+阅读 · 2018年3月7日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
2+阅读 · 2022年4月19日
Arxiv
1+阅读 · 2022年4月15日
Arxiv
33+阅读 · 2022年2月15日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
17+阅读 · 2021年3月29日
VIP会员
相关VIP内容
相关资讯
谷歌提出MaskGIT:掩码生成图像Transformer
CVer
2+阅读 · 2022年3月21日
当可变形注意力机制引入Vision Transformer
极市平台
1+阅读 · 2022年1月23日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
一文详解Google最新NLP模型XLNet
PaperWeekly
18+阅读 · 2019年7月1日
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
基础 | 基于注意力机制的seq2seq网络
黑龙江大学自然语言处理实验室
16+阅读 · 2018年3月7日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
2+阅读 · 2022年4月19日
Arxiv
1+阅读 · 2022年4月15日
Arxiv
33+阅读 · 2022年2月15日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
17+阅读 · 2021年3月29日
Top
微信扫码咨询专知VIP会员