In controllable image synthesis, generating coherent and consistent images from multiple references with spatial layout awareness remains an open challenge. We present LAMIC, a Layout-Aware Multi-Image Composition framework that, for the first time, extends single-reference diffusion models to multi-reference scenarios in a training-free manner. Built upon the MMDiT model, LAMIC introduces two plug-and-play attention mechanisms: 1) Group Isolation Attention (GIA) to enhance entity disentanglement; and 2) Region-Modulated Attention (RMA) to enable layout-aware generation. To comprehensively evaluate model capabilities, we further introduce three metrics: 1) Inclusion Ratio (IN-R) and Fill Ratio (FI-R) for assessing layout control; and 2) Background Similarity (BG-S) for measuring background consistency. Extensive experiments show that LAMIC achieves state-of-the-art performance across most major metrics: it consistently outperforms existing multi-reference baselines in ID-S, BG-S, IN-R and AVG scores across all settings, and achieves the best DPG in complex composition tasks. These results demonstrate LAMIC's superior abilities in identity keeping, background preservation, layout control, and prompt-following, all achieved without any training or fine-tuning, showcasing strong zero-shot generalization ability. By inheriting the strengths of advanced single-reference models and enabling seamless extension to multi-image scenarios, LAMIC establishes a new training-free paradigm for controllable multi-image composition. As foundation models continue to evolve, LAMIC's performance is expected to scale accordingly. Our implementation is available at: https://github.com/Suchenl/LAMIC.


翻译:在可控图像合成中,从具有空间布局感知的多个参考图像生成连贯且一致的图像仍然是一个开放挑战。我们提出了LAMIC,一种布局感知多图像合成框架,首次以无需训练的方式将单参考扩散模型扩展至多参考场景。基于MMDiT模型,LAMIC引入了两种即插即用的注意力机制:1)增强实体解耦的组隔离注意力;以及2)实现布局感知生成的区域调制注意力。为全面评估模型能力,我们进一步提出了三项指标:1)用于评估布局控制的包含率与填充率;以及2)用于衡量背景一致性的背景相似度。大量实验表明,LAMIC在多数核心指标上达到最先进性能:在所有设定下,其ID-S、BG-S、IN-R及AVG分数均持续超越现有多参考基线方法,并在复杂合成任务中取得最佳DPG值。这些结果证明了LAMIC在身份保持、背景保留、布局控制与提示跟随方面的卓越能力,且无需任何训练或微调,展现出强大的零样本泛化能力。通过继承先进单参考模型的优势并实现向多图像场景的无缝扩展,LAMIC为可控多图像合成建立了全新的免训练范式。随着基础模型的持续演进,LAMIC的性能预期将相应提升。我们的实现已发布于:https://github.com/Suchenl/LAMIC。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员