Text-guided image editing can have a transformative impact in supporting creative applications. A key challenge is to generate edits that are faithful to input text prompts, while consistent with input images. We present Imagen Editor, a cascaded diffusion model built, by fine-tuning Imagen on text-guided image inpainting. Imagen Editor's edits are faithful to the text prompts, which is accomplished by using object detectors to propose inpainting masks during training. In addition, Imagen Editor captures fine details in the input image by conditioning the cascaded pipeline on the original high resolution image. To improve qualitative and quantitative evaluation, we introduce EditBench, a systematic benchmark for text-guided image inpainting. EditBench evaluates inpainting edits on natural and generated images exploring objects, attributes, and scenes. Through extensive human evaluation on EditBench, we find that object-masking during training leads to across-the-board improvements in text-image alignment -- such that Imagen Editor is preferred over DALL-E 2 and Stable Diffusion -- and, as a cohort, these models are better at object-rendering than text-rendering, and handle material/color/size attributes better than count/shape attributes.


翻译:文本引导的图像编辑可以在支持创造性应用方面产生革命性的影响。其中一个关键挑战是生成忠实于输入文本提示的编辑,并与输入图像一致。我们提出了Imagen Editor,这是一个级联扩散模型,通过在文本引导的图像修复上对Imagen进行微调。Imagen Editor的编辑对文本提示忠实,这是通过在训练期间使用对象检测器提出修复蒙版来实现的。此外,Imagen Editor通过将级联流程条件化于原始高分辨率图像来捕获输入图像的细节。为了改善定性和定量评估,我们引入了EditBench,一个用于文本引导的图像修复的系统化评估基准。EditBench评估自然和生成图像上的修复,探索物体、属性和场景。通过对EditBench进行广泛的人类评估,我们发现在训练过程中使用对象掩模可导致文本-图像对齐的整体改进,使得Imagen Editor优于DALL-E 2和稳定扩散,并且这些模型作为同伴相对于文本渲染更擅长物体渲染,并且可以处理材料/颜色/大小属性而不是计数/形状属性。

0
下载
关闭预览

相关内容

图像修复(英语:Inpainting)指重建的图像和视频中丢失或损坏的部分的过程。例如在博物馆中,这项工作常由经验丰富的博物馆管理员或者艺术品修复师来进行。数码世界中,图像修复又称图像插值或视频插值,指利用复杂的算法来替换已丢失、损坏的图像数据,主要替换一些小区域和瑕疵。
【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
中科院自动化所17篇CVPR 2022 新作速览!
专知会员服务
20+阅读 · 2022年3月19日
Python图像处理,366页pdf,Image Operators Image Processing in Python
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
已删除
将门创投
12+阅读 · 2019年7月1日
实战 | 用Python做图像处理(一)
七月在线实验室
25+阅读 · 2018年5月23日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月26日
Arxiv
16+阅读 · 2021年1月27日
VIP会员
相关VIP内容
【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
中科院自动化所17篇CVPR 2022 新作速览!
专知会员服务
20+阅读 · 2022年3月19日
Python图像处理,366页pdf,Image Operators Image Processing in Python
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员