We address the problem of action-conditioned generation of human motion sequences. Existing work falls into two categories: forecast models conditioned on observed past motions, or generative models conditioned on action labels and duration only. In contrast, we generate motion conditioned on observations of arbitrary length, including none. To solve this generalized problem, we propose PoseGPT, an auto-regressive transformer-based approach which internally compresses human motion into quantized latent sequences. An auto-encoder first maps human motion to latent index sequences in a discrete space, and vice-versa. Inspired by the Generative Pretrained Transformer (GPT), we propose to train a GPT-like model for next-index prediction in that space; this allows PoseGPT to output distributions on possible futures, with or without conditioning on past motion. The discrete and compressed nature of the latent space allows the GPT-like model to focus on long-range signal, as it removes low-level redundancy in the input signal. Predicting discrete indices also alleviates the common pitfall of predicting averaged poses, a typical failure case when regressing continuous values, as the average of discrete targets is not a target itself. Our experimental results show that our proposed approach achieves state-of-the-art results on HumanAct12, a standard but small scale dataset, as well as on BABEL, a recent large scale MoCap dataset, and on GRAB, a human-object interactions dataset.
翻译:现有工作分为两类:以观察到的过去运动为条件的预测模型,或仅以动作标签和持续时间为条件的基因模型。相反,我们根据任意的长度(包括无)观测产生运动。为了解决这一普遍问题,我们提议采用自动递增变压变压器方法PoseGPT,这是一种内部将人类运动压缩成四分化的潜在序列的自动递减变变变变变变变器。一个自动变相器首先绘制人类运动图,显示在离散空间和反转轨道中的潜在指数序列。在General Inform Streed Translationer (GPT)的启发下,我们提议为该空间的下一个指数预测而训练类似GPT的模型;这让PoseGPT在可能的未来进行输出分布,而不论是否以过去运动为条件。潜移转变变变变变变变变变变变变变变变变变变变变变器的模型使GPT12型模型能够关注远程信号,因为它可以消除输入信号中低的冗余的重复。 预测离变变变变变指数还指数还指数也减轻了预测人类平均的常见误值。我们预测平均平均目标的通用的大小数据,这是我们未来目标的一个典型的典型数据,在不断变变变变变变变变形模型, 的变变变变变变变变变变的模型的模型,我们的模型的模型在将来的模型本身的模型的模型在将来的模型中,作为我们的模型本身的模型中显示的模型的模型,在将来的模型的模型是用来显示的模型中的一个典型的模型,它的大小的模型的模型的模型,它的模型的模型,它作为一个在变的模型,它的一个在显示的大小的大小的大小的大小的大小的大小的模型,它的大小,在显示的模型的大小,它在显示的模型,它的大小,它的大小,它的大小数据,在显示的大小的大小数据在显示的大小的大小的大小数据是显示的大小的大小的大小的大小,它的模型显示我们的模型显示我们的大小数据,它的大小的大小的模型显示我们的模型显示我们的大小的大小的大小的大小的模型显示我们的模型显示我们的大小的