摘要——近年来,生成式人工智能在多个领域取得了显著进展。在2D和3D内容生成的成功基础上,4D生成技术将时间维度引入生成任务中,逐渐成为一个新兴且快速发展的研究领域。本文对这一新兴领域进行了全面综述,系统性地探讨了其理论基础、关键方法以及实际应用,旨在为读者提供对4D生成技术现状及未来潜力的整体理解。我们首先介绍了4D数据表示的核心概念,包括结构化和非结构化格式,及其对生成任务的影响。在此基础上,我们深入探讨了推动4D生成的关键技术,包括时空建模、神经表示和生成框架的最新进展。此外,我们回顾了近期研究中采用多种控制机制和表示策略生成4D输出的方法,对这些方法进行了分类,并总结了其研究轨迹。同时,我们探讨了4D生成技术的广泛应用,涵盖动态物体建模、场景生成、数字人合成、4D内容编辑以及自动驾驶等领域。最后,我们分析了4D生成技术面临的关键挑战,如数据可用性、计算效率和时空一致性,并提出了未来研究的潜在方向。我们的代码已公开于:https://github.com/MiaoQiaowei/Awesome-4D。 关键词——4D生成、动态3D生成、深度生成建模、扩散模型
随着生成模型的不断发展,其能力在过去十年中取得了显著提升。最初,该领域的研究主要集中在2D图像生成上,生成方法如[1]–[7]实现了重要的里程碑。随后,这些方法扩展到多视角2D图像生成[8]–[11]、视频生成[12]–[17]以及3D内容生成[8]、[11]、[18]–[19],推动了生成技术的快速发展。随着这些方法的日益成熟,4D生成技术——将时间维度引入生成任务中——逐渐成为一个重要且快速发展的研究热点[20]–[25]。除了其学术意义外,4D生成技术在视频游戏、电影、数字人以及AR/VR等众多商业应用中也展现出巨大潜力。通过摆脱对传统捕捉设备的依赖,4D生成方法能够灵活控制动态4D物体和场景的合成,为人机交互领域的变革性进步铺平了道路。如图1所示,4D生成技术因其能够将前沿研究与实际应用相结合而受到越来越多的关注,吸引了研究社区对这一新兴领域的广泛兴趣。4D生成任务的核心驱动力来自两项关键技术:4D表示方法和扩散模型。在成熟的3D表示技术(如神经辐射场(NeRF)[26]、网格结构、3D高斯函数[27]和点云)的基础上,研究人员引入了变形网络[28]–[30],以实现对3D表示的时间维度扩展。这些网络通过引入时间维度,有效地将静态3D表示扩展为动态4D表示,为4D生成任务奠定了基础。与此同时,扩散模型[1]–[7]因其灵活的控制机制和在图像、视频甚至3D内容生成中的卓越表现而备受关注。最近的研究通过提出新颖的框架,将扩散模型的生成能力迁移到时间维度,显著提升了生成4D资产的质量和真实感。4D表示方法和扩散模型的这些进展不仅加速了4D生成技术的发展,还使其在多个领域中得到应用。研究人员探索了其在物体生成[31]–[32]、场景生成[33]–[34]、数字人[35]–[38]、4D编辑[39]以及自动驾驶[40]–[42]等方面的潜力。这些多样化的应用凸显了4D生成技术的多功能性及其在研究和工业领域的变革潜力。尽管4D生成技术发展迅速,但目前尚无全面的综述对这一新兴领域进行系统性的梳理和总结。本文旨在填补这一空白,首次对4D生成技术的最新进展进行广泛而深入的综述。具体而言,本文涵盖了4D数据表示、控制机制、生成方法、研究方向、应用领域、相关数据集以及未来发展趋势等关键方面。鉴于研究社区对4D生成任务的兴趣日益增长,本综述特别强调了4D生成技术与相关领域技术的融合。通过分析4D生成与图像、视频和3D生成等其他生成任务之间的联系与差异,本文旨在为研究人员提供清晰且系统化的领域理解。我们相信,本综述不仅为研究人员提供了全面的视角,还将激发对4D生成这一快速发展领域的进一步探索与创新。本文的贡献可总结如下:基于控制条件的分类框架:我们提出了一种快速分类方法,旨在帮助研究人员高效地定位和查阅4D生成领域的相关研究。全面且及时的文献综述:鉴于4D生成技术作为重要研究热点的日益显著,我们提供了系统的综述,总结了现有方法及相关技术,旨在为读者提供对该领域现状的全面理解。趋势、挑战与未来方向的洞察:我们重点分析了4D生成技术的发展趋势,指出了当前方法面临的挑战,并对这一快速演进领域中的机遇和开放性问题进行了深入探讨。