成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA
2020 年 5 月 25 日
新智元
新智元推荐
编辑:白峰
【新智元导读】
上海交大、三菱电机实验室联合提出将人体骨架建模为一个可学习的多尺度图,并且对不同层次的特征,多尺度图呈现动态变化。通过学习综合的多尺度特征表达,DMGNN实现了更准确的未来运动预测,超越SOTA。
现有的基于3D人体骨架的运动预测方法往往不考虑身体不同部位之间的关联关系,或是仅考虑单一尺度的关节点关系。
然而,很多时候是一组关节一起运动,抽象地表达动作的整体特征;相反,如果过度关注细节的关节,模型的整体性能也容易被复杂的运动影响。
这
种新的动态多尺度图神经网络(DMGNN),实现了更精准的运动预测
。
动态多尺度图建模3D人体骨架
基于3D人体骨架的运动预测目的是基于观测的人体骨架运动序列生成未来的姿态,
被广泛应用于众多领域如人机交互、自动驾驶和行人跟踪等
。
现有方法通常无法显式地挖掘不同身体部位之间的关系或约束,或者仅构建了单一尺度下关节点之间的关系,却不足以反应一组运动的关节,例如,在行走中,包含多个关节的上肢和下肢之间的交互运动至关重要,不应该过度关注手指和脚趾。
行走
拍照
买东西
本文提出一种多尺度图用来描述不同尺度下的人体部位和人体结构。每个多尺度图包含两个子图:单尺度图和跨尺度图。
单尺度图逐步抽象人体骨骼;跨尺度图连接相邻的两个单尺度图。多尺度图是可训练的,并且在不同的网络层中呈现动态变化,可灵活的表达不同层级的身体部位之间的关联关系。
基于多尺度图,作者提出动态多尺度图神经网络(DMGNN),其整体框架为一个编码器-解码器结构,分别用于提取运动特征和生成未来姿态。
编码器的核心是一系列基本组分「多尺度图计算单元」(MGCU),解码器核心是「基于图的门控循环单元」(G-GRU)。
基于动态多尺度图的运动预测算法
动态多尺度图
为了建模人体中综合的关联关系,作者提出建立多尺度图,其中图的节点是不同尺度下的身体部位,边为身体部位之前的关系。
多尺度图包含两个子图:单尺度图和跨尺度图,其中单尺度图用于描述单个尺度中的人体内部关联,而跨尺度图连接了不同 的单尺度图,描述了不同尺度中的身体部位的相互作用。
例如,在粗尺度中的「上肢」节点可与细尺度中的「手」和「肘」建立连接。基于人类先验,多尺度图由一种预定义的物理性质的连接作为初始化,在模型的训练过程中被自适应地调整;针对网络不同层中的人体特征,多尺度图呈现动态变化,灵活地描述不同层级中的人体表达。
模型框架
动态图神经网络包含一个编码器和一个解码器,其中编码器内部包含串联的的动态多尺度图计算单元(MGCU),用来逐层地提取人体运动的多尺度特征。每个MGCU包含多个单尺度图卷积块(SS-GCB)和跨尺度融合模块(CS-FB)
其中SS-GCB利用单尺度图的空间图卷积以及时间卷积提取单个尺度中运动的时空特征;
CS-FB通过两个相邻尺度中的特征表达,学习两个尺度中不同身体部位之间的关联关系,以构建跨尺度图,并实现两个尺度中特征的交替融合。
解码器中包含了基于图的门控循环单元(G-GRU),可以利用图卷积增强动作隐含特征中的信息传播,以更准确地生成未来姿态。
此外,本文还提出了差分算子,用来获取运动的速度、加速度等高阶特征,有效地辅助运动预测。
目标函数
DMGNN通过L1 loss进行训练,原因主要是相比于L2 loss,L1 loss在loss小的情况下保持足够大的梯度,在loss大的情况下降低了梯度爆炸的情况,可训练模型生成更准确的预测。
Human3.6M和CMU Mocap数据集验证效果超SOTA
作者在Human3.6M和CMU Mocap两个数据集上进行了实验,通过计算预测结果与真实序列之间的平均角度误差进行定量评价,通过展示生成样本进行定性评价。
Human3.6实验结果
在短期预测中,可以超过绝大多数state-of-the-art方法。在长期预测中,DMGNN可达到十分具有竞争力的表现。
CMU Mocap实验结果
在短期和长期预测中,DMGNN均可超过大多数state-of-the-art方法。
实验结果可视化
通过生成样本可视化,可以看出,相比于众多前人工作,DMGNN可以生成准确且合理的未来动作;而其他方法,容易在短期或长期出现较大的误差或偏移。
消融实验
通过改变不同的身体尺度,可以发现:
1)当利用3个尺度时,模型的表达效果最优;
2)当尺度过少时,模型没有足够的抽象能力,无法准确把握动作的整体特征,故表达效果不够强;
3)当尺度过多时,模型引入了过多抽象的特征表达,而动作预测本身对抽象和精度的要求都很高,过于粗化的特征反而影响了模型的预测能力。
通过定量和定性的实验分析,
本文证明了DMGNN对比state-of-the-art方法,可以实现准确且合理的短期或长期人体运动预测
。
本文作者:Maosen Li, Siheng Chen, Ya Zhang等
论文地址:https://arxiv.org/abs/2003.08802
项目地址:https://github.com/limaosen0/DMGNN(待完善)
视频链接:https://www.bilibili.com/video/BV1hf4y1U7Ri
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
SOTA
关注
0
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
【CVPR2020】通过获取高质量的关键点对来提升目标检测性能
专知会员服务
42+阅读 · 2020年6月30日
【ICML2020】对比多视角表示学习
专知会员服务
52+阅读 · 2020年6月28日
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
【CVPR2020-中科院计算所】多模态GNN:在视觉信息和场景文字上联合推理
专知会员服务
60+阅读 · 2020年4月7日
【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测
专知会员服务
37+阅读 · 2020年4月6日
【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能,实现高分辨率三维人体数字化
专知会员服务
28+阅读 · 2020年4月5日
【CVPR2020-斯坦福】知识蒸馏时空图的视频描述,Spatio-Temporal Graph
专知会员服务
33+阅读 · 2020年4月2日
基于动态时空图CNNs的交通流预测,Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction
专知会员服务
134+阅读 · 2020年3月8日
斯坦福大学李飞飞组发布Action Genome:一种新的表达形式,新的数据集,以及将动作分解成时空场景图的新模型
专知会员服务
39+阅读 · 2020年1月12日
已删除
将门创投
7+阅读 · 2019年10月10日
【泡泡点云时空】基于分割方法的物体六维姿态估计
泡泡机器人SLAM
18+阅读 · 2019年9月15日
生成逼真3D人偶,居然不用3D形状建模,还能学会你的舞步 | 三星CVPR Oral
量子位
9+阅读 · 2019年6月10日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
开源项目VNect使用普通手机摄像头进行动作捕捉,媲美深度摄像头
AR酱
9+阅读 · 2018年5月12日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
DensePose:将2D图像像素映射到人体3D表面以实现高效姿态估计
论智
7+阅读 · 2018年2月5日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
【技术分享】基于双流递归神经网络的人体骨架行为识别
机器学习研究会
5+阅读 · 2017年9月1日
专栏 | CVPR 2017论文解读:基于视频的无监督深度和车辆运动估计
机器之心
3+阅读 · 2017年7月27日
Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks
Arxiv
8+阅读 · 2020年3月12日
Graph Convolutional Networks for Temporal Action Localization
Arxiv
5+阅读 · 2019年9月7日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Efficient Tracking Proposals using 2D-3D Siamese Networks on LIDAR
Arxiv
4+阅读 · 2019年3月25日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference
Arxiv
4+阅读 · 2019年2月27日
Detect-and-Track: Efficient Pose Estimation in Videos
Arxiv
5+阅读 · 2018年5月2日
Learning Human Pose Models from Synthesized Data for Robust RGB-D Action Recognition
Arxiv
3+阅读 · 2018年5月1日
Robust event-stream pattern tracking based on correlative filter
Arxiv
9+阅读 · 2018年3月17日
Link Prediction Based on Graph Neural Networks
Arxiv
26+阅读 · 2018年2月27日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
SOTA
多尺度图神经网络
3D
多尺度特征
特征表达
CVPR
相关VIP内容
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
【CVPR2020】通过获取高质量的关键点对来提升目标检测性能
专知会员服务
42+阅读 · 2020年6月30日
【ICML2020】对比多视角表示学习
专知会员服务
52+阅读 · 2020年6月28日
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
【CVPR2020-中科院计算所】多模态GNN:在视觉信息和场景文字上联合推理
专知会员服务
60+阅读 · 2020年4月7日
【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测
专知会员服务
37+阅读 · 2020年4月6日
【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能,实现高分辨率三维人体数字化
专知会员服务
28+阅读 · 2020年4月5日
【CVPR2020-斯坦福】知识蒸馏时空图的视频描述,Spatio-Temporal Graph
专知会员服务
33+阅读 · 2020年4月2日
基于动态时空图CNNs的交通流预测,Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction
专知会员服务
134+阅读 · 2020年3月8日
斯坦福大学李飞飞组发布Action Genome:一种新的表达形式,新的数据集,以及将动作分解成时空场景图的新模型
专知会员服务
39+阅读 · 2020年1月12日
热门VIP内容
开通专知VIP会员 享更多权益服务
《支持 ML/AI 的下一代智能自主网络系统:性能提升与管理》177页
《飞行训练指导:夜间熟悉》152页
数据:联合作战的新弹药
《混合现实飞行模拟器中的夜视镜仿真:无缝集成真实世界》最新54页
相关资讯
已删除
将门创投
7+阅读 · 2019年10月10日
【泡泡点云时空】基于分割方法的物体六维姿态估计
泡泡机器人SLAM
18+阅读 · 2019年9月15日
生成逼真3D人偶,居然不用3D形状建模,还能学会你的舞步 | 三星CVPR Oral
量子位
9+阅读 · 2019年6月10日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
开源项目VNect使用普通手机摄像头进行动作捕捉,媲美深度摄像头
AR酱
9+阅读 · 2018年5月12日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
DensePose:将2D图像像素映射到人体3D表面以实现高效姿态估计
论智
7+阅读 · 2018年2月5日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
【技术分享】基于双流递归神经网络的人体骨架行为识别
机器学习研究会
5+阅读 · 2017年9月1日
专栏 | CVPR 2017论文解读:基于视频的无监督深度和车辆运动估计
机器之心
3+阅读 · 2017年7月27日
相关论文
Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks
Arxiv
8+阅读 · 2020年3月12日
Graph Convolutional Networks for Temporal Action Localization
Arxiv
5+阅读 · 2019年9月7日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Efficient Tracking Proposals using 2D-3D Siamese Networks on LIDAR
Arxiv
4+阅读 · 2019年3月25日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference
Arxiv
4+阅读 · 2019年2月27日
Detect-and-Track: Efficient Pose Estimation in Videos
Arxiv
5+阅读 · 2018年5月2日
Learning Human Pose Models from Synthesized Data for Robust RGB-D Action Recognition
Arxiv
3+阅读 · 2018年5月1日
Robust event-stream pattern tracking based on correlative filter
Arxiv
9+阅读 · 2018年3月17日
Link Prediction Based on Graph Neural Networks
Arxiv
26+阅读 · 2018年2月27日
大家都在搜
壁画
汽车智能化
大型语言模型
无人机蜂群
ETHZ博士论文
大模型
无人艇
智能推荐
笛卡尔
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top