TPAMI 2023 | 人体动作生成综述：方法、资源与挑战

关键词**：**人体运动生成模型文献综述

导读

本文是对发表于计算机视觉领域顶级期刊 TPAMI 2023 的综述论文 Human Motion Generation: A Survey 的解读。该论文由北京大学博雅特聘教授王亦洲课题组与北京大学艺术学院高峰助理教授、华为云首席科学家田奇博士合作完成。

这篇综述首次全面总结了人体动作生成领域的相关研究工作。作者首先介绍人体动作和生成模型的基础知识，然后对三个主要子任务（基于文本、音频和场景驱动的人体动作生成）的代表性方法进行了概述。此外，作者还梳理了常见数据集和评估指标，并讨论了开放问题和潜在的未来研究方向。作者希望本综述能够为这个快速发展的领域提供一个全面的概览，并启发解决现有挑战的新思路。

论文链接：

https://arxiv.org/pdf/2307.10894.pdf

**Early Access: **

https://ieeexplore.ieee.org/document/10313063

图1. 代表性的人体动作生成任务和方法概览。

背景介绍

人类根据自身意图和环境信息来规划和执行身体动作。作为人工智能的一项重要目标，生成人体的动作模式引起了各个研究领域的越来越多的关注，包括计算机视觉、计算机图形学、多媒体、机器人学和人机交互。人体动作生成的目标是生成自然、逼真且多样化的人体动作，在电影制作、视频游戏、增强现实/虚拟现实、人机交互和虚拟数字人等领域具有广泛应用。

随着深度学习的兴起，近年来各种生成方法取得了快速发展，如自回归模型、变分自编码器（VAE）、归一化流、生成对抗网络（GAN）和去噪扩散概率模型（DDPM）。这些方法在文本、图像、视频和 3D 物体等不同领域取得了巨大成功。另一方面，人体建模的显著进展使得从视频中提取人体动作和构建大规模人体动作数据集变得更加容易。因此，近年来数据驱动的人体动作生成引起了研究界越来越多的兴趣。

然而，人体动作生成面临的挑战不仅仅是将深度生成模型应用于人体动作数据集：

人体动作高度复杂和非线性，受物理和生物力学约束；而人类大脑具有感知生物运动的专门神经机制，对稍不自然的动作模式都很敏感。因此，生成的动作在质量方面有很高的要求，需要兼具自然性、流畅性和合理性。
人体动作生成的需求通常包括一个条件信号，如文本描述、背景音频或周围环境，如图1所示。因此生成的动作不仅本身应该合理，还应与条件信号协调一致。
人体动作作为一种重要的非语言交流媒介，背后反映了多个潜在因素，如行为目标、个人风格、社会规范和文化表达。理想情况下，动作生成模型应该学习捕捉动作变化和与条件信号间微妙的语义关联。

基于这一领域的快速发展和涌现的挑战，我们提供了这篇全面的综述，以帮助研究界跟踪其进展。图2总结了近年来人体动作生成方法的发展。