Generating images according to natural language descriptions is a challenging task. Prior research has mainly focused to enhance the quality of generation by investigating the use of spatial attention and/or textual attention thereby neglecting the relationship between channels. In this work, we propose the Combined Attention Generative Adversarial Network (CAGAN) to generate photo-realistic images according to textual descriptions. The proposed CAGAN utilises two attention models: word attention to draw different sub-regions conditioned on related words; and squeeze-and-excitation attention to capture non-linear interaction among channels. With spectral normalisation to stabilise training, our proposed CAGAN improves the state of the art on the IS and FID on the CUB dataset and the FID on the more challenging COCO dataset. Furthermore, we demonstrate that judging a model by a single evaluation metric can be misleading by developing an additional model adding local self-attention which scores a higher IS, outperforming the state of the art on the CUB dataset, but generates unrealistic images through feature repetition.


翻译:根据自然语言描述生成图像是一项具有挑战性的任务。先前的研究主要侧重于通过调查空间注意力和/或文字关注的使用来提高生成质量,从而忽视了各频道之间的关系。在这项工作中,我们建议联合关注生成反对流网络(CAGAN)根据文字描述生成摄影现实图像。拟议的CAGAN使用两种关注模式:用字眼关注吸引以相关字词为条件的不同分区;用挤压和刺激的注意力捕捉不同频道之间的非线性互动。随着光谱的正常化以稳定化培训,我们提议的CAGAN改进了CUB数据集和FID以及更具挑战性的COCO数据集的CIS和FID的艺术状态。此外,我们证明,通过单一评价指标来判断一个模型,如果再开发一个模型,加上一个比CUB数据集高分数的本地自我关注度,则优于CUB数据集的艺术状态,但通过特征重复产生不切实际的图像,可能会产生误导。

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
70+阅读 · 2020年10月24日
GANs最新进展,30页ppt,GANs: the story so far
专知会员服务
43+阅读 · 2020年8月2日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
203+阅读 · 2019年9月30日
已删除
将门创投
4+阅读 · 2019年11月20日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
stackGAN通过文字描述生成图片的V2项目
CreateAMind
3+阅读 · 2018年1月1日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Arxiv
0+阅读 · 2021年10月27日
Using Scene Graph Context to Improve Image Generation
Arxiv
8+阅读 · 2018年5月21日
Arxiv
5+阅读 · 2018年1月30日
Arxiv
7+阅读 · 2018年1月21日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2019年11月20日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
stackGAN通过文字描述生成图片的V2项目
CreateAMind
3+阅读 · 2018年1月1日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
相关论文
Top
微信扫码咨询专知VIP会员