In the domain of text-to-video (T2V) generation, reliably synthesizing compositional content involving multiple subjects with intricate relations is still underexplored. The main challenges are twofold: 1) Subject presence, where not all subjects can be presented in the video; 2) Inter-subject relations, where the interaction and spatial relationship between subjects are misaligned. Existing methods adopt techniques, such as inference-time latent optimization or layout control, which fail to address both issues simultaneously. To tackle these problems, we propose Comp-Attn, a composition-aware cross-attention variant that follows a Present-and-Align paradigm: it decouples the two challenges by enforcing subject presence at the condition level and achieving relational alignment at the attention-distribution level. Specifically, 1) We introduce Subject-aware Condition Interpolation (SCI) to reinforce subject-specific conditions and ensure each subject's presence; 2) We propose Layout-forcing Attention Modulation (LAM), which dynamically enforces the attention distribution to align with the relational layout of multiple subjects. Comp-Attn can be seamlessly integrated into various T2V baselines in a training-free manner, boosting T2V-CompBench scores by 15.7\% and 11.7\% on Wan2.1-T2V-14B and Wan2.2-T2V-A14B with only a 5\% increase in inference time. Meanwhile, it also achieves strong performance on VBench and T2I-CompBench, demonstrating its scalability in general video generation and compositional text-to-image (T2I) tasks.


翻译:在文本到视频(T2V)生成领域,可靠地合成涉及多个主体及其复杂关系的组合式内容仍是一个尚未充分探索的课题。主要挑战来自两方面:1) 主体呈现问题,即并非所有主体都能在视频中有效呈现;2) 主体间关系问题,即主体间的交互与空间关系存在错位。现有方法采用推理时潜在优化或布局控制等技术,但均未能同时解决这两个问题。为应对这些挑战,我们提出了Comp-Attn,一种遵循“呈现-对齐”范式的组合感知交叉注意力变体:它通过在条件层面强化主体呈现,并在注意力分布层面实现关系对齐,从而将两个挑战解耦。具体而言:1) 我们提出主体感知条件插值(SCI),以增强针对特定主体的条件并确保每个主体均被呈现;2) 我们提出布局强制注意力调制(LAM),其动态强制注意力分布与多主体的关系布局对齐。Comp-Attn能够以无需训练的方式无缝集成到多种T2V基线模型中,在Wan2.1-T2V-14B和Wan2.2-T2V-A14B上仅增加5%推理时间的情况下,将T2V-CompBench分数分别提升15.7%和11.7%。同时,该方法在VBench和T2I-CompBench上也取得了强劲性能,证明了其在通用视频生成和组合式文本到图像(T2I)任务中的可扩展性。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员