Most existing text-to-image synthesis tasks are static single-turn generation, based on pre-defined textual descriptions of images. To explore more practical and interactive real-life applications, we introduce a new task - Interactive Image Editing, where users can guide an agent to edit images via multi-turn textual commands on-the-fly. In each session, the agent takes a natural language description from the user as the input and modifies the image generated in the previous turn to a new design, following the user description. The main challenges in this sequential and interactive image generation task are two-fold: 1) contextual consistency between a generated image and the provided textual description; 2) step-by-step region-level modification to maintain visual consistency across the generated image sequence in each session. To address these challenges, we propose a novel Sequential Attention Generative Adversarial Net-work (SeqAttnGAN), which applies a neural state tracker to encode the previous image and the textual description in each turn of the sequence, and uses a GAN framework to generate a modified version of the image that is consistent with the preceding images and coherent with the description. To achieve better region-specific refinement, we also introduce a sequential attention mechanism into the model. To benchmark on the new task, we introduce two new datasets, Zap-Seq and DeepFashion-Seq, which contain multi-turn sessions with image-description sequences in the fashion domain. Experiments on both datasets show that the proposed SeqAttnGANmodel outperforms state-of-the-art approaches on the interactive image editing task across all evaluation metrics including visual quality, image sequence coherence, and text-image consistency.
翻译:多数现有的文本到图像合成任务都是静态的单端合成任务, 以预定义的图像文字描述为基础。 为了探索更实际和互动的图像真实生活应用程序, 我们引入了一个新任务 - 交互式图像编辑, 用户可以通过多端文本指令在每场飞行中指导一个代理编辑图像。 每次会话中, 代理从用户处获取自然语言描述, 作为输入, 并修改上一轮转换到新设计的图像。 此连续和交互式图像生成任务的主要挑战是两重:(1) 生成的图像和提供的文本描述之间的背景一致性; (2) 一步一步一步地对区域进行区域级修改, 以保持生成图像序列的视觉一致性。 为了应对这些挑战, 我们提出一个新的“ 顺序关注” 网络工作( SqeqAttnGAN), 使用一个神经状态跟踪器将先前的图像和文本顺序描述编码到序列的每一端, 并使用 GAN 框架生成一个经过修改的图像版本, 该版本与前一阶段的图像和前一阶段的文本质量描述一致; 向前一阶段引入新的图像, 并引入新的序列任务中, 显示新的图表的顺序, 显示新的顺序任务。 将我们引入新的图表在新的图表中, 显示中, 更精确的顺序任务中, 更新的顺序任务中, 显示, 引入新的方向任务中, 将新的方向任务中, 更新到新的方向任务中, 更新的顺序任务中, 更新的顺序任务中, 更新的顺序任务中, 在新的方向任务中, 更新的顺序任务中, 更新的顺序任务任务中, 更新的顺序任务中, 更新的顺序任务中, 更新的顺序任务中, 更新的顺序任务中, 引入了我们在新任务中, 更新的顺序任务中, 上, 上, 上, 显示到新的方向任务中, 上, 在新的方向任务中, 将显示中, 在新的方向上, 上, 在新的方向任务中, 上, 更新任务任务上, 上, 上, 在新的方向任务中, 上, 上, 上, 上, 上, 将引入新的方向任务中, 引入了新的方向任务中, 引入新的方向任务中, 将引入了新的方向任务中,