Image editing using diffusion models has witnessed extremely fast-paced growth recently. There are various ways in which previous works enable controlling and editing images. Some works use high-level conditioning such as text, while others use low-level conditioning. Nevertheless, most of them lack fine-grained control over the properties of the different objects present in the image, i.e. object-level image editing. In this work, we consider an image as a composition of multiple objects, each defined by various properties. Out of these properties, we identify structure and appearance as the most intuitive to understand and useful for editing purposes. We propose Structure-and-Appearance Paired Diffusion model (PAIR-Diffusion), which is trained using structure and appearance information explicitly extracted from the images. The proposed model enables users to inject a reference image's appearance into the input image at both the object and global levels. Additionally, PAIR-Diffusion allows editing the structure while maintaining the style of individual components of the image unchanged. We extensively evaluate our method on LSUN datasets and the CelebA-HQ face dataset, and we demonstrate fine-grained control over both structure and appearance at the object level. We also applied the method to Stable Diffusion to edit any real image at the object level.


翻译:近来,扩散模型在图像编辑中的应用迅速增长。之前的研究中有一些使用高级的条件,例如文本,而另一些使用低级的条件。然而,大多数方法都无法精细控制图像中不同物体的属性,即对象级别的图像编辑。本研究中,我们将一张图像视为多个物体的组合,每个物体由各种属性定义。我们认为,其中最直观和有用于编辑目的的属性是结构和外观。因此,我们提出了一种结构和外观对齐扩散模型(PAIR-Diffusion),该模型使用明确从图像中提取的结构和外观信息进行训练。所提出的模型使用户能够在物体和全局级别上将参考图像的外观注入到输入图像中。另外,PAIR-Diffusion允许在保持图像各个组成部分的样式不变的情况下编辑结构。我们在LSUN数据集和CelebA-HQ人脸数据集上对我们的方法进行了广泛评估,并展示了在对象级别上对结构和外观的精细控制。我们还将该方法应用于稳定扩散,以在对象级别上编辑任何真实图像。

0
下载
关闭预览

相关内容

两人亲密社交应用,官网: trypair.com/
【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
专知会员服务
19+阅读 · 2021年9月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月18日
Arxiv
0+阅读 · 2023年5月18日
Arxiv
0+阅读 · 2023年5月17日
Arxiv
45+阅读 · 2022年9月6日
Arxiv
14+阅读 · 2022年8月25日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关VIP内容
【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
专知会员服务
19+阅读 · 2021年9月13日
相关基金
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员