首篇《人类视频生成》全面综述：挑战、方法和见解

人类视频生成是一个动态且迅速发展的任务，旨在通过生成模型在文本、音频和姿态等控制条件下合成2D人体视频序列。由于在电影、游戏和虚拟通信中的广泛应用潜力，生成自然且逼真的人类视频能力至关重要。生成模型的最新进展为这一领域日益增长的兴趣奠定了坚实的基础。尽管取得了显著进步，人类视频生成任务仍因角色的一致性、人类运动的复杂性以及其与环境关系的困难而具有挑战性。本综述提供了对当前人类视频生成状态的全面回顾，据我们所知，这是该领域的首次广泛文献综述。我们首先介绍了人类视频生成的基础知识以及促进该领域发展的生成模型演变。然后，我们分析了在人类视频生成中的三个关键子任务：文本驱动、音频驱动和姿态驱动运动生成所采用的主要方法。这些领域的探讨基于指导生成过程的条件。此外，我们收集了最常用的数据集和评估指标，这些指标对于评估生成视频的质量和真实感至关重要。综述最后讨论了该领域的当前挑战，并提出了未来研究的可能方向。本文的目标是为研究社区提供一个清晰且全面的人类视频生成进展视图，突出已实现的里程碑以及未来的挑战。

人类视频生成任务旨在通过生成模型在文本、音频和姿态等控制条件下合成自然且逼真的2D人体视频序列。这些生成的视频序列包括全身或半身人像，包含详细的身体部位和面部动作表示。最近，由于在电影制作、电子游戏、AR/VR、人机交互、数字人类和便捷人机交互等广泛应用的潜力，这一领域引起了显著关注。

最近，人类视频生成在生成方法的进展中取得了快速进步，即变分自编码器（VAE）、生成对抗网络（GAN）和扩散模型。然而，研究这样的视频合成问题被认为具有挑战性，主要有以下原因。首先，沿时间序列保持人类外观一致性是该任务中的一大障碍。其次，在合成视频中，避免人体变形是困难的，例如手指异常。第三，人类运动视频的复杂性不仅仅是面部建模，还涉及准确建模身体运动以及保持背景与身体部位的一致性和和谐。此外，人类运动生成的需求通常包括上下文作为条件，如文本描述、音频信号和姿态序列，确保与这些条件信号的时间对齐对于生成连贯且逼真的人类视频至关重要。

为应对人类视频生成的快速发展和新兴挑战，我们提供了这一领域的全面综述，帮助社区跟踪其进展。

总而言之，本综述的主要贡献有四方面：

我们详细界定了人类视频生成的边界，全面分析了这一领域的最新进展，并根据驱动生成过程的模态将这些进展分为三大类：文本驱动、音频驱动和姿态驱动。据我们所知，这是第一个对该领域进行系统和集中审查的综述。
我们通过大量相关方法和广泛的相关数据集、挑战、评估指标和商业项目，全面审查了人类视频生成中的挑战和难题。本文为读者选择适合其特定应用的基线或解决方案提供了指导。此外，我们的发现为改进当前方法提供了宝贵的见解。
基于我们的详细文献回顾和深入分析，我们确定了人类运动生成未来发展的几个有前途的方向。
我们还提供了一个持续更新的GitHub存储库，包含该领域的最新进展，以及优秀的作品和数据集的链接。我们旨在为研究社区提供最前沿的信息，并便于访问重要的研究工作、数据集和应用。详情请访问我们的存储库链接。