Guided image synthesis enables everyday users to create and edit photo-realistic images with minimum effort. The key challenge is balancing faithfulness to the user input (e.g., hand-drawn colored strokes) and realism of the synthesized image. Existing GAN-based methods attempt to achieve such balance using either conditional GANs or GAN inversions, which are challenging and often require additional training data or loss functions for individual applications. To address these issues, we introduce a new image synthesis and editing method, Stochastic Differential Editing (SDEdit), based on a diffusion model generative prior, which synthesizes realistic images by iteratively denoising through a stochastic differential equation (SDE). Given an input image with user guide of any type, SDEdit first adds noise to the input, then subsequently denoises the resulting image through the SDE prior to increase its realism. SDEdit does not require task-specific training or inversions and can naturally achieve the balance between realism and faithfulness. SDEdit significantly outperforms state-of-the-art GAN-based methods by up to 98.09% on realism and 91.72% on overall satisfaction scores, according to a human perception study, on multiple tasks, including stroke-based image synthesis and editing as well as image compositing.
翻译:向导图像合成使日常用户能够以最小的努力创建和编辑照片现实图像。 关键的挑战是如何平衡用户输入( 手画彩色划线) 和合成图像的现实性。 基于 GAN 的现有方法试图使用有条件的 GAN 或 GAN 反向方法实现这种平衡, 这种方法具有挑战性, 往往需要为个人应用程序提供更多的培训数据或损失功能。 为了解决这些问题, 我们引入了新的图像合成和编辑方法, 斯托切斯差异编辑( SDEdit), 其基础是传播模型之前的基因化模型, 通过迭接性地通过随机偏移等分方( SDE) 来综合现实性图像。 鉴于以任何类型的用户指南提供输入图像, SDE 首先是增加输入的噪音, 然后通过 SDE 之前的 SDE 放大图像。 SDE 不需要针对特定任务的培训或反向, 并且能够自然地实现真实性和忠诚之间的平衡。 SDEdit 大大超越了基于 GAN 的状态图象化模型, 通过迭代分解调来合成 GAN 的图象学, 包括 9809% 和以 人文化成 等化, 的 的 性 性化 性化 性化 的 性 性化, 性化 性化 性化 和 性化 性化 性化 性化 性化 性化 性化成为 性化 性化成为 性化为 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化 性化