定制化文本到视频生成技术旨在根据用户指定的主体身份运动模式生成高质量视频。然而,现有方法主要局限于对单一概念(主体身份或运动模式)进行个性化定制,难以同时处理具有特定运动模式的多个主体。 为应对这一挑战,我们提出统一框架VideoMage,实现对多主体及其交互运动的联合定制。VideoMage的创新包括:

双模态适配器

采用主体LoRA运动LoRA,分别从用户提供的图像/视频中提取个性化内容 * 通过外观无关的运动学习技术,解耦运动模式与视觉外观特征 1. 时空组合机制

设计新型空间-时间引导方案,精确控制多主体在目标运动模式下的交互行为

实验表明,VideoMage显著优于现有方法,能生成主体身份一致运动交互可控时序连贯的视频。 项目主页https://jasper0314-huang.github.io/videomage-customization

成为VIP会员查看完整内容
8

相关内容

【CVPR2025】具有显式3D建模的世界一致性视频扩散
【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
20+阅读 · 2024年3月30日
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
71+阅读 · 2023年9月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
447+阅读 · 2023年3月31日
Arxiv
75+阅读 · 2023年3月26日
Arxiv
163+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员