Spatial control is a core capability in controllable image generation. Advancements in layout-guided image generation have shown promising results on in-distribution (ID) datasets with similar spatial configurations. However, it is unclear how these models perform when facing out-of-distribution (OOD) samples with arbitrary, unseen layouts. In this paper, we propose LayoutBench, a diagnostic benchmark for layout-guided image generation that examines four categories of spatial control skills: number, position, size, and shape. We benchmark two recent representative layout-guided image generation methods and observe that the good ID layout control may not generalize well to arbitrary layouts in the wild (e.g., objects at the boundary). Next, we propose IterInpaint, a new baseline that generates foreground and background regions in a step-by-step manner via inpainting, demonstrating stronger generalizability than existing models on OOD layouts in LayoutBench. We perform quantitative and qualitative evaluation and fine-grained analysis on the four LayoutBench skills to pinpoint the weaknesses of existing models. Lastly, we show comprehensive ablation studies on IterInpaint, including training task ratio, crop&paste vs. repaint, and generation order. Project website: https://layoutbench.github.io


翻译:控制图像的空间布局是可控制图像生成中的核心能力。基于布局引导的图像生成的进展已经在具有相似空间配置的分布内(ID)数据集上展现出了有希望的结果。然而,当面对任意、未见的布局的情况时,这些模型的表现情况并不明确。在本文中,我们提出了LayoutBench,这是一种用于布局引导的图像生成的诊断基准,检查了四个空间控制技能的类别:数量、位置、大小和形状。我们对两种最近的布局引导图像生成方法进行了基准测试,并观察到ID布局控制良好的模型的广义性可能不好,无法很好地适应野外任意布局(例如边界处的对象)的情况。接下来,我们提出了IterInpaint,这是一种新的基线,通过修复一步一步地生成前景和背景区域,展示出在LayoutBench的OOD布局上比现有模型更强的泛化能力。我们进行了四个LayoutBench技能的定量和定性评估,并对现有模型的弱点进行了细致的分析。最后,我们展示了IterInpaint的全面消融研究,包括训练任务比、裁剪和粘贴与重绘、生成顺序等。项目网站:https://layoutbench.github.io

0
下载
关闭预览

相关内容

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
32+阅读 · 2022年3月12日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
手把手教你写 Dart ffi
阿里技术
0+阅读 · 2022年11月7日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【泡泡一分钟】RoomNet:端到端房屋布局估计
泡泡机器人SLAM
18+阅读 · 2018年12月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月29日
Arxiv
45+阅读 · 2022年9月6日
Conditional Prompt Learning for Vision-Language Models
Arxiv
13+阅读 · 2022年3月10日
VIP会员
相关VIP内容
【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
32+阅读 · 2022年3月12日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员