当前基于扩散模型的文本生成视频方法仅限于生成单一镜头的短视频片段,尚不具备生成包含多个镜头转换的视频能力,尤其是在保持同一角色在相同或不同背景下执行不同动作的一致性方面存在显著限制。为了解决这一问题,我们提出了一个新的框架,该框架包括一个数据集构建流程和对现有视频扩散模型的结构扩展,从而实现文本生成多镜头视频(text-to-multi-shot video generation)。 我们的方法能够将多镜头视频作为一个整体进行生成,并在所有镜头的所有帧之间实现全局注意力机制(full attention),从而确保角色和背景的一致性。此外,用户可以通过**镜头级条件控制(shot-specific conditioning)**自由设定视频中镜头的数量、时长和内容。 该能力的实现依赖于两个关键技术创新: 1. **过渡标记(transition token)**的引入,用于控制新镜头在视频中何时开始; 1. 局部注意力遮蔽策略(local attention masking strategy),用于控制过渡标记的作用范围,并支持镜头级文本提示。

为获得训练所需的数据,我们还提出了一种新颖的数据构建流程,可从现有的单镜头视频数据集中构建一个多镜头视频数据集。 大量实验证明,仅需对一个预训练的文本生成视频模型微调几千步,即可使其具备生成具备镜头控制能力的多镜头视频的能力,并在多个基线方法上取得更优表现。

成为VIP会员查看完整内容
0

相关内容

【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
56+阅读 · 2024年1月19日
专知会员服务
19+阅读 · 2021年9月23日
专知会员服务
19+阅读 · 2021年9月13日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
16+阅读 · 2020年8月21日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
459+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
168+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关资讯
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员