近年来,扩散模型的进展彻底革新了视频生成技术,相较于传统的基于生成对抗网络(GAN)的方法,展现出更优越的时间一致性和视觉质量。尽管这一新兴领域在实际应用中展现出巨大的潜力,但仍面临诸如运动一致性、计算效率和伦理考量等重大挑战。 本综述系统回顾了基于扩散的视频生成技术,探讨了其发展历程、技术基础与实际应用。我们构建了当前方法的系统分类法,分析了架构创新与优化策略,并研究了其在图像去噪、超分辨率等低级视觉任务中的应用。此外,我们还探讨了扩散模型视频生成与相关领域之间的协同效应,包括视频表征学习、问答系统和视频检索。 相较于现有的一些综述文献(如 Lei 等,2024a;b;Melnik 等,2024;Cao 等,2023;Xing 等,2024c)主要聚焦于视频生成的特定方面,如人物视频合成(Lei 等,2024a)或长内容生成(Lei 等,2024b),我们的工作提供了一个更广泛、更前沿、更细致的视角,特别设立了评估指标、工业解决方案及训练工程技术等专题内容,全面覆盖扩散模型在视频生成中的最新进展。 本综述旨在为扩散模型与视频生成交叉领域的研究者和工程实践者提供基础性参考资料,涵盖该领域迅速发展的理论框架与工程实现。同时,本综述中涉及的相关文献已整理成结构化列表并发布于 GitHub 上。

1 引言

近年来,视频生成技术(Ren 等,2024;Zheng 等,2024c;Davtyan & Favaro,2022)已成为一项关键且具有变革性的技术。高质量、逼真视频的生成能力已广泛应用于娱乐与广告(Wang & Shi,2023)、虚拟现实(Hu 等,2021)以及自动化系统(Zhou 等,2024c),进一步推动了用户体验的提升、低成本内容创作的实现以及创意表达的新途径。 在过去几年中,随着生成对抗网络(GAN,Goodfellow 等,2014)的广泛应用,视频生成技术(Clark 等,2019;Aldausari 等,2022;Hong 等,2022)取得了显著进展。研究者们提出了多种策略以提升生成视频的时间连贯性(Chai 等,2023)、真实感与多样性。尽管如此,基于GAN的方法在训练稳定性和生成质量一致性方面仍面临挑战。 扩散模型(Ho 等,2020;Nichol & Dhariwal,2021;Sohl-Dickstein 等,2015)的引入为该领域带来了革命性的变化,提供了一种克服GAN局限性的概率建模框架。基于扩散的模型(Kwak 等,2024;Chai 等,2023;Wang & Yang,2024;Ho 等,2022c)在生成时间一致且视觉效果出色的视频方面表现优异,激发了该领域的进一步研究。 然而,基于扩散的视频生成仍面临若干根本性挑战。其中一个主要问题是如何确保帧间的运动一致性,这是生成时间连贯且真实视频的关键。此外,生成视频还需遵循物理规则,如准确的物体动态和环境交互,以维持现实感。长视频生成亦是一个挑战,要求模型能够处理长时间序列中的复杂时间依赖关系。 在计算层面,扩散模型训练所需的资源开销巨大,常常导致效率低下,限制了模型的可扩展性。同时,推理速度缓慢也是一个严重问题,尤其是在实时视频生成场景中尤为关键。除技术问题外,伦理问题也不可忽视,包括缓解生成内容中的偏见,防止生成有害或误导性视觉内容。 为应对扩散视频生成技术的快速进展与新兴挑战,本文对现有方法、最新研究成果及未来发展方向进行了系统分析。

**我们的贡献

本综述深入分析了基于扩散的视频生成方法,聚焦其技术基础与实际应用。尽管现有综述(Lei 等,2024a;b;Melnik 等,2024;Cao 等,2023;Xing 等,2024c)已对视频生成的特定方面进行了探讨,如人物视频合成(Lei 等,2024a)或长内容生成(Lei 等,2024b),但我们工作提供了一个更广泛、更前沿、更细粒度的视角。 与相关综述(Xing 等,2024c;Melnik 等,2024)相比,我们对扩散模型及其应用进行了更全面的覆盖,详细综述了相关数据集、评估指标、工业解决方案及训练工程技术。本文的主要贡献包括: * 据我们所知,这是目前关于基于扩散的视频生成最全面的综述之一,涵盖模型范式、学习基础、实现细节、应用场景及与其他领域的关联。 * 相较其他综述,我们的综述提供了更广阔的视角与应用范围,详细探讨了数据集、评估指标、工业解决方案及训练工程技术等内容。

**

**本文结构

本文结构如下:第2节介绍基础概念,涵盖GAN模型、自回归模型与扩散模型等视频生成范式;第3节聚焦于实现细节,讨论数据集、训练工程技术、评估指标,并通过基准测试展示模型性能;第4节介绍多样化应用场景,包括条件生成任务、视频增强方法(如去噪、修复、插帧、外推与超分辨率),以及个性化生成、一致性建模、长视频生成和新兴的三维感知扩散模型;最后,第5节探讨扩散视频生成在其他领域的推动作用,如视频表征学习、检索、问答系统以及三维/四维生成,强调其在相关领域的广泛影响。 这一结构将为读者提供从基础原理到前沿应用的全面、系统的理解。

成为VIP会员查看完整内容
3

相关内容

微信扫码咨询专知VIP会员