Generating an image from a given text description has two goals: visual realism and semantic consistency. Although significant progress has been made in generating high-quality and visually realistic images using generative adversarial networks, guaranteeing semantic consistency between the text description and visual content remains very challenging. In this paper, we address this problem by proposing a novel global-local attentive and semantic-preserving text-to-image-to-text framework called MirrorGAN. MirrorGAN exploits the idea of learning text-to-image generation by redescription and consists of three modules: a semantic text embedding module (STEM), a global-local collaborative attentive module for cascaded image generation (GLAM), and a semantic text regeneration and alignment module (STREAM). STEM generates word- and sentence-level embeddings. GLAM has a cascaded architecture for generating target images from coarse to fine scales, leveraging both local word attention and global sentence attention to progressively enhance the diversity and semantic consistency of the generated images. STREAM seeks to regenerate the text description from the generated image, which semantically aligns with the given text description. Thorough experiments on two public benchmark datasets demonstrate the superiority of MirrorGAN over other representative state-of-the-art methods.


翻译:从给定文本描述中生成图像有两个目标:视觉现实主义和语义一致性。虽然在利用基因对抗网络生成高质量和视觉现实图像方面取得了显著进展,但保证文本描述和视觉内容之间的语义一致性仍然是非常艰巨的。在本文件中,我们通过提出一个新的全球-本地注意和语义保留文本到图像到文字的框架,名为MiragGAN。MiraGAN利用了通过重写学习文本到图像生成的理念,由三个模块组成:语义嵌入模块(STEM)、级联图像生成全球-地方合作关注模块(GLAM)以及语义文本更新和对齐模块(STREAM)。STEM生成了文字和句级嵌入模块。GLAM有一个连锁结构,将目标图像从粗俗到微规模生成,利用本地文字关注和全球句注意逐步增强生成图像的多样性和语义一致性。STREAM试图将生成的文本描述从生成的图像中重新生成文本描述,用SARAN-SALM 模型展示了公共图像的高级性标定方法。

1
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
32+阅读 · 2020年1月10日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
4+阅读 · 2019年8月7日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
7+阅读 · 2018年4月21日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
4+阅读 · 2019年8月7日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
7+阅读 · 2018年4月21日
Top
微信扫码咨询专知VIP会员