人工智能的核心目标之一是使机器能够将视觉世界感知为由不同对象组成的整体。这种对象中心的理解能力对于支持细粒度、可控内容生成与编辑的生成模型至关重要。然而,现有最先进的扩散模型通常以整体方式处理图像,并依赖文本条件进行控制,这在执行对象级操作时会造成语义错位。因此,研究人员面临一个根本性挑战:要么适配强大但高度依赖文本的模型,要么从零构建专门化模型,但后者往往在容量上受限。本论文针对这一问题,提出了一个框架,用于将预训练生成模型适配为对象中心的图像与视频合成。 我们的分析指出了当前方法的核心难题:高质量生成需要在全局场景一致性与对象级可控的解耦表示之间取得平衡。为此,我们提出了一种适配策略,将对象特定的条件信息注入到预训练模型中,同时保留其宝贵的先验知识。将该框架扩展到视频领域则更具挑战性,因为必须在时间维度上保持一致的对象身份与时序连贯性。 在静态图像方面,我们提出了 SlotAdapt 方法,它通过轻量级的基于 Slot 的模块增强扩散模型。该方法使用一个寄存器 token 捕获背景与风格,同时由 slot 条件化组件编码对象特定信息。这种双通路设计有效缓解了文本条件偏置,并实现了精确的对象中心控制,在对象发现、分割、组合编辑以及可控图像生成任务中取得了最先进的结果。 在视频方面,我们进一步扩展了框架。通过使用 不变 Slot 注意力(Invariant Slot Attention, ISA) 将对象身份与姿态解耦,并结合基于 Transformer 的时间聚合器,我们的方法能够在时间维度上保持一致的对象表征与动态。该方法在无监督视频对象分割与重建上设立了新的基准,同时实现了先进的视频编辑功能,包括对象移除、替换与插入,且无需显式监督。 总体而言,本研究建立了一种通用且可扩展的对象中心生成建模方法,适用于图像与视频。除了设立新的技术基准之外,它还拓展了交互式与可控生成工具的设计空间,缩小了人类对象感知与机器学习模型之间的差距。这些贡献为结构化、直观且以用户为导向的 AI 应用开辟了新的方向,涵盖创造性、科学性与实用性等多个领域。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】合成数据的视觉表示学习
专知会员服务
25+阅读 · 2024年8月25日
【NTU博士论文】语言模型自适应迁移学习
专知会员服务
37+阅读 · 2023年12月20日
【UFPE大学博士论文】基于熵损失的鲁棒深度学习
专知会员服务
43+阅读 · 2022年11月11日
数据受限条件下的多模态处理技术综述
专知
20+阅读 · 2022年7月16日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
15+阅读 · 2018年9月20日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
Arxiv
0+阅读 · 5月30日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关资讯
数据受限条件下的多模态处理技术综述
专知
20+阅读 · 2022年7月16日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
15+阅读 · 2018年9月20日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员