Existing feedforward subject-driven video customization methods mainly study single-subject scenarios due to the difficulty of constructing multi-subject training data pairs. Another challenging problem that how to use the signals such as depth, mask, camera, and text prompts to control and edit the subject in the customized video is still less explored. In this paper, we first propose a data construction pipeline, VideoCus-Factory, to produce training data pairs for multi-subject customization from raw videos without labels and control signals such as depth-to-video and mask-to-video pairs. Based on our constructed data, we develop an Image-Video Transfer Mixed (IVTM) training with image editing data to enable instructive editing for the subject in the customized video. Then we propose a diffusion Transformer framework, OmniVCus, with two embedding mechanisms, Lottery Embedding (LE) and Temporally Aligned Embedding (TAE). LE enables inference with more subjects by using the training subjects to activate more frame embeddings. TAE encourages the generation process to extract guidance from temporally aligned control signals by assigning the same frame embeddings to the control and noise tokens. Experiments demonstrate that our method significantly surpasses state-of-the-art methods in both quantitative and qualitative evaluations. Video demos are at our project page: https://caiyuanhao1998.github.io/project/OmniVCus/. Our code, models, data are released at https://github.com/caiyuanhao1998/Open-OmniVCus


翻译:现有的前馈式主体驱动视频定制方法主要研究单主体场景,这源于构建多主体训练数据对的困难。另一个具有挑战性的问题——如何利用深度、掩码、相机和文本提示等信号来控制和编辑定制视频中的主体——仍较少被探索。本文首先提出一个数据构建流程 VideoCus-Factory,能够从无标签且无控制信号(如深度到视频、掩码到视频对)的原始视频中,为多主体定制生成训练数据对。基于我们构建的数据,我们开发了一种结合图像编辑数据的图像-视频迁移混合(IVTM)训练方法,以实现对定制视频中主体的指导性编辑。随后,我们提出了一个扩散 Transformer 框架 OmniVCus,它包含两种嵌入机制:彩票嵌入(LE)和时间对齐嵌入(TAE)。LE 通过利用训练主体激活更多帧嵌入,从而支持在推理时处理更多主体。TAE 通过为控制令牌和噪声令牌分配相同的帧嵌入,鼓励生成过程从时间对齐的控制信号中提取引导信息。实验表明,我们的方法在定量和定性评估上均显著超越了现有最先进的方法。视频演示请访问我们的项目页面:https://caiyuanhao1998.github.io/project/OmniVCus/。我们的代码、模型和数据已发布于 https://github.com/caiyuanhao1998/Open-OmniVCus。

0
下载
关闭预览

相关内容

MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员