Most existing text-to-image synthesis tasks are static single-turn generation, based on pre-defined textual descriptions of images. To explore more practical and interactive real-life applications, we introduce a new task - Interactive Image Editing, where users can guide an agent to edit images via multi-turn textual commands on-the-fly. In each session, the agent takes a natural language description from the user as the input and modifies the image generated in the previous turn to a new design, following the user description. The main challenges in this sequential and interactive image generation task are two-fold: 1) contextual consistency between a generated image and the provided textual description; 2) step-by-step region-level modification to maintain visual consistency across the generated image sequence in each session. To address these challenges, we propose a novel Sequential Attention Generative Adversarial Net-work (SeqAttnGAN), which applies a neural state tracker to encode the previous image and the textual description in each turn of the sequence, and uses a GAN framework to generate a modified version of the image that is consistent with the preceding images and coherent with the description. To achieve better region-specific refinement, we also introduce a sequential attention mechanism into the model. To benchmark on the new task, we introduce two new datasets, Zap-Seq and DeepFashion-Seq, which contain multi-turn sessions with image-description sequences in the fashion domain. Experiments on both datasets show that the proposed SeqAttnGANmodel outperforms state-of-the-art approaches on the interactive image editing task across all evaluation metrics including visual quality, image sequence coherence, and text-image consistency.


翻译:多数现有的文本到图像合成任务都是静态的单端合成任务, 以预定义的图像文字描述为基础。 为了探索更实际和互动的图像真实生活应用程序, 我们引入了一个新任务 - 交互式图像编辑, 用户可以通过多端文本指令在每场飞行中指导一个代理编辑图像。 每次会话中, 代理从用户处获取自然语言描述, 作为输入, 并修改上一轮转换到新设计的图像。 此连续和交互式图像生成任务的主要挑战是两重:(1) 生成的图像和提供的文本描述之间的背景一致性; (2) 一步一步一步地对区域进行区域级修改, 以保持生成图像序列的视觉一致性。 为了应对这些挑战, 我们提出一个新的“ 顺序关注” 网络工作( SqeqAttnGAN), 使用一个神经状态跟踪器将先前的图像和文本顺序描述编码到序列的每一端, 并使用 GAN 框架生成一个经过修改的图像版本, 该版本与前一阶段的图像和前一阶段的文本质量描述一致; 向前一阶段引入新的图像, 并引入新的序列任务中, 显示新的图表的顺序, 显示新的顺序任务。 将我们引入新的图表在新的图表中, 显示中, 更精确的顺序任务中, 更新的顺序任务中, 显示, 引入新的方向任务中, 将新的方向任务中, 更新到新的方向任务中, 更新的顺序任务中, 更新的顺序任务中, 更新的顺序任务中, 在新的方向任务中, 更新的顺序任务中, 更新的顺序任务任务中, 更新的顺序任务中, 更新的顺序任务中, 更新的顺序任务中, 更新的顺序任务中, 引入了我们在新任务中, 更新的顺序任务中, 上, 上, 上, 显示到新的方向任务中, 上, 在新的方向任务中, 将显示中, 在新的方向上, 上, 在新的方向任务中, 上, 更新任务任务上, 上, 上, 在新的方向任务中, 上, 上, 上, 上, 上, 将引入新的方向任务中, 引入了新的方向任务中, 引入新的方向任务中, 将引入了新的方向任务中,

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Python图像处理,366页pdf,Image Operators Image Processing in Python
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
7+阅读 · 2018年11月27日
Image Captioning based on Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
5+阅读 · 2018年5月1日
VIP会员
相关论文
Arxiv
7+阅读 · 2018年11月27日
Image Captioning based on Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
5+阅读 · 2018年5月1日
Top
微信扫码咨询专知VIP会员