扩散生成模型最近已成为一种用于生成和修改连贯、高质量视频的强大技术。本综述提供了视频生成扩散模型关键元素的系统概览,涵盖应用、架构选择以及时间动态的建模。领域中的最新进展被总结并归类为发展趋势。综述以剩余挑战的概览和对该领域未来的展望结束。网站:https://github.com/ndrwmlnk/Awesome-Video-Diffusion-Models。

扩散生成模型(Sohl-Dickstein等,2015年;Song & Ermon,2019年;Ho等,2020年;Song等,2021年;Ruiz等,2024年)已经展示了学习多样化视觉概念和基于文本描述创建高质量图像的显著能力(Rombach等,2022年;Ramesh等,2022年)。最近的发展还将扩散模型扩展到了视频领域(Ho等,2022c),具有彻底革新娱乐内容生成或为智能决策模拟世界的潜力(Yang等,2023a)。例如,文本到视频的SORA模型(Brooks等,2024年)已能够根据用户的提示生成长达一分钟的高质量视频。将扩散模型适应视频生成带来了独特的挑战,这些挑战仍需克服,包括维持时间一致性、生成长视频和计算成本。

在本综述中,我们提供了视频扩散模型的关键方面概览,包括可能的应用、架构选择、时间动态建模机制和训练模式(见图1以获取概览)。随后,我们将简要总结一些值得注意的论文,以勾勒出到目前为止该领域的发展。最后,我们总结讨论持续存在的挑战,并识别未来改进的潜在领域。

应用分类

视频扩散模型的可能应用可以根据输入方式大致分类。这包括文本提示、图像、视频和听觉信号。许多模型也接受这些模态的某些组合作为输入。图2展示了不同的应用。我们从第7.1.3节开始,总结了每个应用领域中的重要论文。为此,我们根据一个主要任务对每个模型进行了分类。

在我们的分类中,文本条件生成(第7.1.3节)指的是完全基于文本描述生成视频的任务。不同模型在如何模拟对象特定运动方面表现出不同程度的成功。因此,我们将模型分为两类:一类能够产生简单运动,如轻微的摄像机平移或流动的头发;另一类能够表现出更复杂的随时间变化的运动,如融入物理推理的模型(Melnik等,2023年)。

在图像条件视频生成(第7.4节)任务中,一个现有的参考图像被赋予动画效果。有时,提供文本提示或其他指导信息。由于其对生成视频内容的高度可控性,图像条件视频生成近期已被广泛研究。对于在其他章节中介绍的模型,我们在适用的情况下提及它们的图像到视频生成能力。

我们将视频补全模型(第8节)视为一个独立的组,这些模型接受现有视频并在时间域中进行扩展,尽管它们与前面的应用有交集。视频扩散模型通常由于架构和硬件限制而具有固定的输入和输出帧数。为了扩展这些模型生成任意长度的视频,已探索了自回归和分层方法。

音频条件模型(第9节)接受声音片段作为输入,有时与文本或图像等其他模态结合。然后它们可以合成与声源一致的视频。典型应用包括生成说话的面孔、音乐视频以及更一般的场景。 视频编辑模型(第10节)使用现有视频作为基线,从中生成新视频。典型任务包括风格编辑(在保持对象身份的同时改变视频的外观)、对象/背景替换、深度伪造以及恢复旧视频素材(包括去噪、上色或扩展宽高比等任务)。

最后,我们考虑将视频扩散模型应用于智能决策(第11节)。视频扩散模型可以用作基于代理当前状态或高级文本任务描述的现实世界模拟器。这可以使在模拟世界中进行规划成为可能,同时也可以在生成性世界模型内完全训练强化学习策略。

成为VIP会员查看完整内容
24

相关内容

扩散模型是近年来快速发展并得到广泛关注的生成模型。它通过一系列的加噪和去噪过程,在复杂的图像分布和高斯分布之间建立联系,使得模型最终能将随机采样的高斯噪声逐步去噪得到一张图像。
来自互联网视频的通用机器人学习:综述
专知会员服务
22+阅读 · 5月4日
IJCAI2022《对抗序列决策》教程,164页ppt
专知会员服务
44+阅读 · 2022年7月27日
时空数据挖掘:综述
专知会员服务
91+阅读 · 2022年6月30日
TPAMI 2021|VideoDG:首个视频领域泛化模型
专知会员服务
19+阅读 · 2021年12月31日
专知会员服务
43+阅读 · 2021年8月5日
专知会员服务
65+阅读 · 2021年7月11日
专知会员服务
19+阅读 · 2021年5月1日
机器学习组合优化
专知会员服务
106+阅读 · 2021年2月16日
图像分割方法综述
专知会员服务
52+阅读 · 2020年11月22日
时空数据挖掘:综述
专知
21+阅读 · 2022年6月30日
异常检测论文大列表:方法、应用、综述
专知
125+阅读 · 2019年7月15日
Python机器学习课程(代码与教程)
专知
35+阅读 · 2019年5月13日
图神经网络综述:模型与应用
PaperWeekly
195+阅读 · 2018年12月26日
RCNN算法分析
统计学习与视觉计算组
10+阅读 · 2018年1月12日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
深度学习目标检测概览
AI研习社
46+阅读 · 2017年10月13日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
24+阅读 · 2017年7月9日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
29+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
327+阅读 · 2023年3月31日
Arxiv
67+阅读 · 2022年9月7日
Arxiv
12+阅读 · 2022年4月12日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Arxiv
26+阅读 · 2020年2月21日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
来自互联网视频的通用机器人学习:综述
专知会员服务
22+阅读 · 5月4日
IJCAI2022《对抗序列决策》教程,164页ppt
专知会员服务
44+阅读 · 2022年7月27日
时空数据挖掘:综述
专知会员服务
91+阅读 · 2022年6月30日
TPAMI 2021|VideoDG:首个视频领域泛化模型
专知会员服务
19+阅读 · 2021年12月31日
专知会员服务
43+阅读 · 2021年8月5日
专知会员服务
65+阅读 · 2021年7月11日
专知会员服务
19+阅读 · 2021年5月1日
机器学习组合优化
专知会员服务
106+阅读 · 2021年2月16日
图像分割方法综述
专知会员服务
52+阅读 · 2020年11月22日
相关资讯
时空数据挖掘:综述
专知
21+阅读 · 2022年6月30日
异常检测论文大列表:方法、应用、综述
专知
125+阅读 · 2019年7月15日
Python机器学习课程(代码与教程)
专知
35+阅读 · 2019年5月13日
图神经网络综述:模型与应用
PaperWeekly
195+阅读 · 2018年12月26日
RCNN算法分析
统计学习与视觉计算组
10+阅读 · 2018年1月12日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
深度学习目标检测概览
AI研习社
46+阅读 · 2017年10月13日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
24+阅读 · 2017年7月9日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
29+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
327+阅读 · 2023年3月31日
Arxiv
67+阅读 · 2022年9月7日
Arxiv
12+阅读 · 2022年4月12日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Arxiv
26+阅读 · 2020年2月21日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
Arxiv
11+阅读 · 2018年7月31日
微信扫码咨询专知VIP会员