CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动，实现精准预测效果超SOTA

会员服务 ·

CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动，实现精准预测效果超SOTA

2020 年 5 月 25 日 新智元

新智元推荐

编辑：白峰

【新智元导读】上海交大、三菱电机实验室联合提出将人体骨架建模为一个可学习的多尺度图，并且对不同层次的特征，多尺度图呈现动态变化。通过学习综合的多尺度特征表达，DMGNN实现了更准确的未来运动预测，超越SOTA。

现有的基于3D人体骨架的运动预测方法往往不考虑身体不同部位之间的关联关系，或是仅考虑单一尺度的关节点关系。

然而，很多时候是一组关节一起运动，抽象地表达动作的整体特征；相反，如果过度关注细节的关节，模型的整体性能也容易被复杂的运动影响。这种新的动态多尺度图神经网络（DMGNN），实现了更精准的运动预测。

动态多尺度图建模3D人体骨架

基于3D人体骨架的运动预测目的是基于观测的人体骨架运动序列生成未来的姿态，被广泛应用于众多领域如人机交互、自动驾驶和行人跟踪等。

现有方法通常无法显式地挖掘不同身体部位之间的关系或约束，或者仅构建了单一尺度下关节点之间的关系，却不足以反应一组运动的关节，例如，在行走中，包含多个关节的上肢和下肢之间的交互运动至关重要，不应该过度关注手指和脚趾。

行走

拍照

买东西

本文提出一种多尺度图用来描述不同尺度下的人体部位和人体结构。每个多尺度图包含两个子图：单尺度图和跨尺度图。

单尺度图逐步抽象人体骨骼；跨尺度图连接相邻的两个单尺度图。多尺度图是可训练的，并且在不同的网络层中呈现动态变化，可灵活的表达不同层级的身体部位之间的关联关系。

基于多尺度图，作者提出动态多尺度图神经网络（DMGNN），其整体框架为一个编码器-解码器结构，分别用于提取运动特征和生成未来姿态。

编码器的核心是一系列基本组分「多尺度图计算单元」（MGCU），解码器核心是「基于图的门控循环单元」（G-GRU）。

基于动态多尺度图的运动预测算法

动态多尺度图

为了建模人体中综合的关联关系，作者提出建立多尺度图，其中图的节点是不同尺度下的身体部位，边为身体部位之前的关系。

多尺度图包含两个子图：单尺度图和跨尺度图，其中单尺度图用于描述单个尺度中的人体内部关联，而跨尺度图连接了不同的单尺度图，描述了不同尺度中的身体部位的相互作用。

例如，在粗尺度中的「上肢」节点可与细尺度中的「手」和「肘」建立连接。基于人类先验，多尺度图由一种预定义的物理性质的连接作为初始化，在模型的训练过程中被自适应地调整；针对网络不同层中的人体特征，多尺度图呈现动态变化，灵活地描述不同层级中的人体表达。

模型框架

动态图神经网络包含一个编码器和一个解码器，其中编码器内部包含串联的的动态多尺度图计算单元（MGCU），用来逐层地提取人体运动的多尺度特征。每个MGCU包含多个单尺度图卷积块（SS-GCB）和跨尺度融合模块（CS-FB）

其中SS-GCB利用单尺度图的空间图卷积以及时间卷积提取单个尺度中运动的时空特征； CS-FB通过两个相邻尺度中的特征表达，学习两个尺度中不同身体部位之间的关联关系，以构建跨尺度图，并实现两个尺度中特征的交替融合。

解码器中包含了基于图的门控循环单元（G-GRU），可以利用图卷积增强动作隐含特征中的信息传播，以更准确地生成未来姿态。

此外，本文还提出了差分算子，用来获取运动的速度、加速度等高阶特征，有效地辅助运动预测。

目标函数

DMGNN通过L1 loss进行训练，原因主要是相比于L2 loss，L1 loss在loss小的情况下保持足够大的梯度，在loss大的情况下降低了梯度爆炸的情况，可训练模型生成更准确的预测。

Human3.6M和CMU Mocap数据集验证效果超SOTA

作者在Human3.6M和CMU Mocap两个数据集上进行了实验，通过计算预测结果与真实序列之间的平均角度误差进行定量评价，通过展示生成样本进行定性评价。

Human3.6实验结果

在短期预测中，可以超过绝大多数state-of-the-art方法。在长期预测中，DMGNN可达到十分具有竞争力的表现。

CMU Mocap实验结果

在短期和长期预测中，DMGNN均可超过大多数state-of-the-art方法。

实验结果可视化

通过生成样本可视化，可以看出，相比于众多前人工作，DMGNN可以生成准确且合理的未来动作；而其他方法，容易在短期或长期出现较大的误差或偏移。

消融实验

通过改变不同的身体尺度，可以发现：

1）当利用3个尺度时，模型的表达效果最优；

2）当尺度过少时，模型没有足够的抽象能力，无法准确把握动作的整体特征，故表达效果不够强；

3）当尺度过多时，模型引入了过多抽象的特征表达，而动作预测本身对抽象和精度的要求都很高，过于粗化的特征反而影响了模型的预测能力。

通过定量和定性的实验分析，本文证明了DMGNN对比state-of-the-art方法，可以实现准确且合理的短期或长期人体运动预测。

本文作者：Maosen Li, Siheng Chen, Ya Zhang等

论文地址：https://arxiv.org/abs/2003.08802

项目地址：https://github.com/limaosen0/DMGNN（待完善）

视频链接：https://www.bilibili.com/video/BV1hf4y1U7Ri

登录查看更多

相关内容

SOTA

关注 0

【CVPR2020】通过获取高质量的关键点对来提升目标检测性能

专知会员服务

44+阅读 · 2020年6月30日

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

59+阅读 · 2020年6月24日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

专知会员服务

136+阅读 · 2020年3月8日

已删除

将门创投

7+阅读 · 2019年10月10日

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

量子位

9+阅读 · 2019年6月10日

DensePose：将2D图像像素映射到人体3D表面以实现高效姿态估计

论智

7+阅读 · 2018年2月5日

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

【技术分享】基于双流递归神经网络的人体骨架行为识别

机器学习研究会

5+阅读 · 2017年9月1日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

Efficient Tracking Proposals using 2D-3D Siamese Networks on LIDAR

Arxiv

4+阅读 · 2019年3月25日

Detect-and-Track: Efficient Pose Estimation in Videos

Arxiv

5+阅读 · 2018年5月2日

Robust event-stream pattern tracking based on correlative filter

Arxiv

10+阅读 · 2018年3月17日

Link Prediction Based on Graph Neural Networks

Arxiv

26+阅读 · 2018年2月27日

VIP会员