Simulated humanoids are an appealing research domain due to their physical capabilities. Nonetheless, they are also challenging to control, as a policy must drive an unstable, discontinuous, and high-dimensional physical system. One widely studied approach is to utilize motion capture (MoCap) data to teach the humanoid agent low-level skills (e.g., standing, walking, and running) that can then be re-used to synthesize high-level behaviors. However, even with MoCap data, controlling simulated humanoids remains very hard, as MoCap data offers only kinematic information. Finding physical control inputs to realize the demonstrated motions requires computationally intensive methods like reinforcement learning. Thus, despite the publicly available MoCap data, its utility has been limited to institutions with large-scale compute. In this work, we dramatically lower the barrier for productive research on this topic by training and releasing high-quality agents that can track over three hours of MoCap data for a simulated humanoid in the dm_control physics-based environment. We release MoCapAct (Motion Capture with Actions), a dataset of these expert agents and their rollouts, which contain proprioceptive observations and actions. We demonstrate the utility of MoCapAct by using it to train a single hierarchical policy capable of tracking the entire MoCap dataset within dm_control and show the learned low-level component can be re-used to efficiently learn downstream high-level tasks. Finally, we use MoCapAct to train an autoregressive GPT model and show that it can control a simulated humanoid to perform natural motion completion given a motion prompt. Videos of the results and links to the code and dataset are available at https://microsoft.github.io/MoCapAct.
翻译:模拟人类素因其物理能力而是一个令人着迷的研究领域。然而,它们也具有控制的挑战性,因为一项政策必须驱动一种不稳定、不连续和高维的物理系统。一个经过广泛研究的方法是利用运动捕获(Mocap)数据来教授人体剂的低水平技能(如立体、行走和运行),然后可以重新用来综合高层次的行为。然而,即使有Mocap数据,控制模拟人类素仍然非常困难,因为Mocap数据只能提供运动信息。找到实现所显示的运动的物理控制投入需要像加固学习那样的计算密集的方法。因此,尽管有可公开获得的mocap数据,但其效用仅限于有大规模可编译的机构。在这项工作中,我们通过培训和释放高品质的代理人,可以追踪超过三个小时的模拟人类素量数据,在dmm_controduct 低层次环境中,我们发布Mocapact(mocalgration) 数据集集成数据,并展示其滚动的滚动结果。我们用这些专家代理人的数据和滚动的滚动数据级 显示一个可操作的升级的升级的动作, 运动的动作,我们可以显示一个可操作的升级的升级的升级的升级的升级的动作, 运动的动作的动作的动作和升级的动作,可以显示一个可操作的升级的升级的动作, 运动的动作,可以显示一个可操作的动作,可以显示一个可操作的升级的升级的升级的升级的升级的动作, 运动的动作, 运动的动作的动作, 运动的动作可以显示一个可操作的动作,可以显示它的升级的动作,可以显示它的一个自动的动作的动作的动作的动作的动作的动作的动作的动作,可以显示它的升级的动作,可以显示它的升级的动作的动作的动作, 和升级的动作的动作的动作的动作的动作的动作的动作, 和升级的动作的动作的动作的动作的动作的动作的动作的动作的动作的动作的动作的动作的动作的动作的动作,可以显示的动作的动作,可以显示它的动作的动作,可以显示的动作的动作的动作的动作的动作的动作的动作,可以显示它的动作的动作的动作的动作的动作的动作的动作的动作的动作的动作的