In this work, we propose TediGAN, a novel framework for multi-modal image generation and manipulation with textual descriptions. The proposed method consists of three components: StyleGAN inversion module, visual-linguistic similarity learning, and instance-level optimization. The inversion module maps real images to the latent space of a well-trained StyleGAN. The visual-linguistic similarity learns the text-image matching by mapping the image and text into a common embedding space. The instance-level optimization is for identity preservation in manipulation. Our model can produce diverse and high-quality images with an unprecedented resolution at 1024. Using a control mechanism based on style-mixing, our TediGAN inherently supports image synthesis with multi-modal inputs, such as sketches or semantic labels, with or without instance guidance. To facilitate text-guided multi-modal synthesis, we propose the Multi-Modal CelebA-HQ, a large-scale dataset consisting of real face images and corresponding semantic segmentation map, sketch, and textual descriptions. Extensive experiments on the introduced dataset demonstrate the superior performance of our proposed method. Code and data are available at https://github.com/weihaox/TediGAN.


翻译:在这项工作中,我们提出TediGAN,这是一个用于多模式图像生成和用文本描述进行操作的新框架。建议的方法由三个部分组成:StyleGAN 反向模块、视觉语言相似性学习和试级优化。反向模块将真实图像映射到受过良好训练的StyGAN的潜在空间。视觉语言相似性通过将图像和文本映射成共同嵌入空间来学习文本图像匹配。实例一级优化是用于在操作中保存身份。我们的模型可以在1024年生成具有前所未有的分辨率的多样化和高质量图像。使用基于样式混合的控制机制,我们的TediGAN内在地支持以多模式输入的图像合成,例如草图或语义标签,同时或不提供实例指导。为了便利文本指导多模式合成,我们提议多模式化的图像和文本图像匹配。由真实面图像和相应的语义分割图、草图和文字描述构成的大型数据集。在引入的数据设置上,TetiGADox 展示了我们可用的高级数据方法。

0
下载
关闭预览

相关内容

iOS 8 提供的应用间和应用跟系统的功能交互特性。
  • Today (iOS and OS X): widgets for the Today view of Notification Center
  • Share (iOS and OS X): post content to web services or share content with others
  • Actions (iOS and OS X): app extensions to view or manipulate inside another app
  • Photo Editing (iOS): edit a photo or video in Apple's Photos app with extensions from a third-party apps
  • Finder Sync (OS X): remote file storage in the Finder with support for Finder content annotation
  • Storage Provider (iOS): an interface between files inside an app and other apps on a user's device
  • Custom Keyboard (iOS): system-wide alternative keyboards

Source: iOS 8 Extensions: Apple’s Plan for a Powerful App Ecosystem
专知会员服务
45+阅读 · 2020年10月31日
生成对抗网络GAN的发展与最新应用
专知会员服务
127+阅读 · 2020年8月13日
专知会员服务
61+阅读 · 2020年3月19日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
FIGR: Few-shot Image Generation with Reptile
Arxiv
5+阅读 · 2019年1月8日
Arxiv
7+阅读 · 2018年1月21日
VIP会员
相关VIP内容
专知会员服务
45+阅读 · 2020年10月31日
生成对抗网络GAN的发展与最新应用
专知会员服务
127+阅读 · 2020年8月13日
专知会员服务
61+阅读 · 2020年3月19日
相关资讯
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
FIGR: Few-shot Image Generation with Reptile
Arxiv
5+阅读 · 2019年1月8日
Arxiv
7+阅读 · 2018年1月21日
Top
微信扫码咨询专知VIP会员