定制化文本到视频生成技术旨在根据用户指定的主体身份或运动模式生成高质量视频。然而,现有方法主要局限于对单一概念(主体身份或运动模式)进行个性化定制,难以同时处理具有特定运动模式的多个主体。 为应对这一挑战,我们提出统一框架VideoMage,实现对多主体及其交互运动的联合定制。VideoMage的创新包括:
双模态适配器:
采用主体LoRA与运动LoRA,分别从用户提供的图像/视频中提取个性化内容 * 通过外观无关的运动学习技术,解耦运动模式与视觉外观特征 1. 时空组合机制:
设计新型空间-时间引导方案,精确控制多主体在目标运动模式下的交互行为
实验表明,VideoMage显著优于现有方法,能生成主体身份一致、运动交互可控且时序连贯的视频。 项目主页:https://jasper0314-huang.github.io/videomage-customization