人工智能的核心目标之一是使机器能够将视觉世界感知为由不同对象组成的整体。这种对象中心的理解能力对于支持细粒度、可控内容生成与编辑的生成模型至关重要。然而,现有最先进的扩散模型通常以整体方式处理图像,并依赖文本条件进行控制,这在执行对象级操作时会造成语义错位。因此,研究人员面临一个根本性挑战:要么适配强大但高度依赖文本的模型,要么从零构建专门化模型,但后者往往在容量上受限。本论文针对这一问题,提出了一个框架,用于将预训练生成模型适配为对象中心的图像与视频合成。 我们的分析指出了当前方法的核心难题:高质量生成需要在全局场景一致性与对象级可控的解耦表示之间取得平衡。为此,我们提出了一种适配策略,将对象特定的条件信息注入到预训练模型中,同时保留其宝贵的先验知识。将该框架扩展到视频领域则更具挑战性,因为必须在时间维度上保持一致的对象身份与时序连贯性。 在静态图像方面,我们提出了 SlotAdapt 方法,它通过轻量级的基于 Slot 的模块增强扩散模型。该方法使用一个寄存器 token 捕获背景与风格,同时由 slot 条件化组件编码对象特定信息。这种双通路设计有效缓解了文本条件偏置,并实现了精确的对象中心控制,在对象发现、分割、组合编辑以及可控图像生成任务中取得了最先进的结果。 在视频方面,我们进一步扩展了框架。通过使用 不变 Slot 注意力(Invariant Slot Attention, ISA) 将对象身份与姿态解耦,并结合基于 Transformer 的时间聚合器,我们的方法能够在时间维度上保持一致的对象表征与动态。该方法在无监督视频对象分割与重建上设立了新的基准,同时实现了先进的视频编辑功能,包括对象移除、替换与插入,且无需显式监督。 总体而言,本研究建立了一种通用且可扩展的对象中心生成建模方法,适用于图像与视频。除了设立新的技术基准之外,它还拓展了交互式与可控生成工具的设计空间,缩小了人类对象感知与机器学习模型之间的差距。这些贡献为结构化、直观且以用户为导向的 AI 应用开辟了新的方向,涵盖创造性、科学性与实用性等多个领域。