Inspired by the ability of StyleGAN to generate highly realistic images in a variety of domains, much recent work has focused on understanding how to use the latent spaces of StyleGAN to manipulate generated and real images. However, discovering semantically meaningful latent manipulations typically involves painstaking human examination of the many degrees of freedom, or an annotated collection of images for each desired manipulation. In this work, we explore leveraging the power of recently introduced Contrastive Language-Image Pre-training (CLIP) models in order to develop a text-based interface for StyleGAN image manipulation that does not require such manual effort. We first introduce an optimization scheme that utilizes a CLIP-based loss to modify an input latent vector in response to a user-provided text prompt. Next, we describe a latent mapper that infers a text-guided latent manipulation step for a given input image, allowing faster and more stable text-based manipulation. Finally, we present a method for mapping a text prompts to input-agnostic directions in StyleGAN's style space, enabling interactive text-driven image manipulation. Extensive results and comparisons demonstrate the effectiveness of our approaches.


翻译:受StyleGAN在不同领域生成高度现实图像的能力的启发,最近许多工作侧重于了解如何利用StyleGAN的潜在空间来操纵生成的图像和实际图像。然而,发现具有内在意义的潜在操纵通常需要人类对自由的多种程度进行艰苦检查,或为每个想要的操作收集附加注释的图像。在这项工作中,我们探索如何利用最近引入的对抗性语言图像培训前模型的力量,以便为StyleGAN图像操作开发一个基于文本的界面,而不需要这种手工操作。我们首先引入一个优化方案,利用基于 CLIP 的损失来修改输入的潜在矢量,以响应用户提供的文本提示。接下来,我们描述一个潜在的映像器,为某种输入图像提供文本指导的潜在操纵步骤,允许更快和更稳定的文本操纵。最后,我们提出了一个方法,用于绘制文本提示到StyleGAN风格空间的输入-不可知性方向,从而能够进行交互式文本驱动图像操纵。我们的广泛结果和比较展示了我们方法的有效性。

0
下载
关闭预览

相关内容

专知会员服务
61+阅读 · 2021年3月6日
生成对抗网络GAN在各领域应用研究进展(中文版),37页pdf
专知会员服务
150+阅读 · 2020年12月30日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
29+阅读 · 2019年10月18日
人脸合成效果媲美StyleGAN,而它是个自编码器
机器之心
3+阅读 · 2020年4月26日
来,用StyleGAN给自己捏一个对象
QCon
3+阅读 · 2019年2月21日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
CycleGAN:图片风格,想换就换 | ICCV 2017论文解读
PaperWeekly
12+阅读 · 2018年3月14日
ICCV17 :12为顶级大牛教你学生成对抗网络(GAN)!
全球人工智能
8+阅读 · 2017年11月26日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
3+阅读 · 2020年7月16日
VIP会员
相关VIP内容
专知会员服务
61+阅读 · 2021年3月6日
生成对抗网络GAN在各领域应用研究进展(中文版),37页pdf
专知会员服务
150+阅读 · 2020年12月30日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
29+阅读 · 2019年10月18日
相关资讯
人脸合成效果媲美StyleGAN,而它是个自编码器
机器之心
3+阅读 · 2020年4月26日
来,用StyleGAN给自己捏一个对象
QCon
3+阅读 · 2019年2月21日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
CycleGAN:图片风格,想换就换 | ICCV 2017论文解读
PaperWeekly
12+阅读 · 2018年3月14日
ICCV17 :12为顶级大牛教你学生成对抗网络(GAN)!
全球人工智能
8+阅读 · 2017年11月26日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员