人类视频生成是一个动态且迅速发展的任务,旨在通过生成模型在文本、音频和姿态等控制条件下合成2D人体视频序列。由于在电影、游戏和虚拟通信中的广泛应用潜力,生成自然且逼真的人类视频能力至关重要。生成模型的最新进展为这一领域日益增长的兴趣奠定了坚实的基础。尽管取得了显著进步,人类视频生成任务仍因角色的一致性、人类运动的复杂性以及其与环境关系的困难而具有挑战性。本综述提供了对当前人类视频生成状态的全面回顾,据我们所知,这是该领域的首次广泛文献综述。我们首先介绍了人类视频生成的基础知识以及促进该领域发展的生成模型演变。然后,我们分析了在人类视频生成中的三个关键子任务:文本驱动、音频驱动和姿态驱动运动生成所采用的主要方法。这些领域的探讨基于指导生成过程的条件。此外,我们收集了最常用的数据集和评估指标,这些指标对于评估生成视频的质量和真实感至关重要。综述最后讨论了该领域的当前挑战,并提出了未来研究的可能方向。本文的目标是为研究社区提供一个清晰且全面的人类视频生成进展视图,突出已实现的里程碑以及未来的挑战。
最近,人类视频生成在生成方法的进展中取得了快速进步,即变分自编码器(VAE)、生成对抗网络(GAN)和扩散模型。然而,研究这样的视频合成问题被认为具有挑战性,主要有以下原因。首先,沿时间序列保持人类外观一致性是该任务中的一大障碍。其次,在合成视频中,避免人体变形是困难的,例如手指异常。第三,人类运动视频的复杂性不仅仅是面部建模,还涉及准确建模身体运动以及保持背景与身体部位的一致性和和谐。此外,人类运动生成的需求通常包括上下文作为条件,如文本描述、音频信号和姿态序列,确保与这些条件信号的时间对齐对于生成连贯且逼真的人类视频至关重要。
总而言之,本综述的主要贡献有四方面: