用于单目3D人体姿态估计的局部连接网络，克服图卷积网络限制 - 专知

会员服务 ·

0

用于单目3D人体姿态估计的局部连接网络，克服图卷积网络限制

2020 年 10 月 18 日 AI科技评论

本文是被人工智能领域的顶级期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence（TPAMI）于2020年8月接收的论文《用于单目3D人体姿态估计的局部连接网络（Locally Connected Network for Monocular 3D Human Pose Estimation）》的解读。

该论文由北京大学与微软亚洲研究院、深睿医疗合作，解决了从单张图像对场景中的人进行三维姿态估计的问题。该工作基于2019年 ICCV 论文《针对三维人体姿态估计的网络结构优化（Optimizing Network Structure for 3D Human Pose Estimation）》，提出局部连接网络（LCN），来克服图卷积神经网络（GCN）表征能力不足的限制，极大地提高网络表征与泛化能力，且进一步实现端到端部署，并成功应用至不同场景。

1

背景介绍

利用计算机视觉技术对场景中的人进行姿态估计是当前重要的研究问题之一，但面对如遮挡、运动模糊等问题的挑战仍未被完全解决。我们旨在研究单目三维人体姿态估计，即从单张图像恢复人体关节点 3D 坐标。已有的工作之一是基于深度学习方法的全连接网络（Fully Connected Networks）（参考文献1），虽然相比传统方法已经大大提高了准确率，但是该方法并未利用人体所提供的丰富的先验知识，如人体关节连接与人体肢体长度等信息，该方法受限于其网络中密集连接而导致的弱表征力（图1（a））。

而后的工作（参考文献2）将图卷积网络（Graph Convolutional Network，GCN）的思想应用到这一问题中，却囿于其共享权重的设计并未达到很好的效果（图1（b））。基于 GCN，我们提出了一个广义公式，

y=X(S \odot W)

，并推导出 FCN，GCN 都是该公式的特例。

图1. FCN，GCN 与本文所提出的 LCN 模型中某一层网络的概念性差异示意图

2

模型概览

图2. 我们的端到端单目 3D 人体姿态估计模型的整体流程

本文中我们提出了一种从单张图像中进行 3D 人体姿态估计的方法（图2）。该方法包括两个步骤：首先从图像中估计 2D 姿态，然后估计相应的 3D 姿态。现有的 2D 姿态估计器已较成熟，我们的改进着重于第二步。

考虑到人体关节连接可以自然地用图来表示，我们从图卷积网络（GCN）出发，基于上述广义公式，将 GCN 在用于 3D 姿势估计时为不同关节分配共享过滤器的缺点克服，提出局部连接网络（Local Connected Network，LCN），以为不同的关节分配专用而非共享的过滤器。利用空间积分的常用可微手段（spatial integral）（参考文献3），我们联合已有的 2D 姿态估计器和 LCN 网络进行端到端训练，使其可以处理不断迭代变化的 2D 姿态。

3

实验结果

我们在两个基准数据集上评估了我们的方法，观察到 LCN 已达到最好水平并且具有强大的跨数据集泛化能力。表1为在 H36M，即目前最大的三维人体姿态估计基准数据集之一上的表现，其中 Ours（Joint）为我们端到端训练模型的结果，评价指标是预测姿态与真实姿态的平均关节误差值，单位毫米。

表1. 现有工作与我们的模型在H36M数据集上的定量误差结果（越小表示越好）

图3为应用我们的模型在不同场景图片中的效果。可以看到，该模型可成功泛化至背景丰富且动作较复杂的未曾见过的场景中。

图3. 我们的模型应用在不同场景中的可视化结果，最后一列为失败案例

4

结语

本文从图卷积网络 GCN 出发，提出局部连接网络 LCN，来从单目图像中估计 3D 人体姿态，并有效地克服了 GCN 的局限性。特别地，LCN 具有很强的表征与泛化能力，通过端到端联合训练在基准数据集上达到了最好水平。更重要的是，LCN 可以很好地推广到丰富新颖的动作与场景中。

参考文献

[1] J. Martinez, R. Hossain, J. Romero, and J. J. Little, "A simple yet effective baseline for 3d human pose estimation," in ICCV 2017.

[2] L. Zhao, X. Peng, Y. Tian, M. Kapadia, and D. N. Metaxas, "Semantic graph convolutional networks for 3d human pose regression," in CVPR 2019.

[3] X. Sun, B. Xiao, F. Wei, S. Liang, and Y. Wei, "Integral human pose regression," in ECCV 2018.

NeurIPS 2020论文接收列表已出，欢迎大家投稿让更多的人了解你们的工作~

点击阅读原文，直达NeurIPS小组~

登录查看更多

1

相关内容

姿态估计

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

专知会员服务

14+阅读 · 2020年6月18日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

51+阅读 · 2020年5月26日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

45+阅读 · 2020年4月17日

【CVPR2020】图神经网络中的几何原理连接

【CVPR2020】图神经网络中的几何原理连接

专知会员服务

57+阅读 · 2020年4月8日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【CVPR2020-牛津大学】具有自适应邻域一致性的通信网络，Correspondence Networks with Adaptive Neighbourhood Consensus

【CVPR2020-牛津大学】具有自适应邻域一致性的通信网络，Correspondence Networks with Adaptive Neighbourhood Consensus

专知会员服务

16+阅读 · 2020年3月27日

近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码

近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【深度估计| 2019最新综述】单目深度估计方法综述（Monocular Depth Estimation: A Survey）

专知会员服务

69+阅读 · 2019年11月23日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

【泡泡点云时空】StereoDRNet：基于扩张卷积的双目残差网络

【泡泡点云时空】StereoDRNet：基于扩张卷积的双目残差网络

泡泡机器人SLAM

13+阅读 · 2019年9月8日

图卷积在基于骨架的动作识别中的应用

图卷积在基于骨架的动作识别中的应用

极市平台

24+阅读 · 2019年6月4日

【泡泡图灵智库】基于几何一致性网络的摄像机运动估计

【泡泡图灵智库】基于几何一致性网络的摄像机运动估计

泡泡机器人SLAM

9+阅读 · 2019年5月13日

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

泡泡机器人SLAM

11+阅读 · 2019年5月8日

【泡泡图灵智库】不基于传感器的深度估计: 利用单目视频进行结构性的无监督学习（CVPR）

【泡泡图灵智库】不基于传感器的深度估计: 利用单目视频进行结构性的无监督学习（CVPR）

泡泡机器人SLAM

3+阅读 · 2019年4月16日

CVPR 2019 | 基于骨架表达的单张图片三维物体重建方法

CVPR 2019 | 基于骨架表达的单张图片三维物体重建方法

PaperWeekly

4+阅读 · 2019年4月10日

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

机器之心

3+阅读 · 2019年1月28日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

AAAI 2018 | 时空图卷积网络：港中文提出基于动态骨骼的行为识别新方案

AAAI 2018 | 时空图卷积网络：港中文提出基于动态骨骼的行为识别新方案

机器之心

8+阅读 · 2018年1月31日

用于RGB-D室内场景语义分割的门式融合局部感知反卷积网络

用于RGB-D室内场景语义分割的门式融合局部感知反卷积网络

机器学习研究会

7+阅读 · 2017年10月30日

Fixed-Point Convolutional Neural Network for Real-Time Video Processing in FPGA

Arxiv

0+阅读 · 2020年12月3日

PlueckerNet: Learn to Register 3D Line Reconstructions

Arxiv

0+阅读 · 2020年12月2日

Directed Graph Attention Neural Network Utilizing 3D Coordinates for Molecular Property Prediction

Arxiv

0+阅读 · 2020年12月1日

Anisotropic local constant smoothing for change-point regression function estimation

Arxiv

0+阅读 · 2020年12月1日

Representation of 2D frame less visual space as a neural manifold and its information geometric interpretation

Arxiv

0+阅读 · 2020年11月27日

Graph Convolutional Networks for Temporal Action Localization

Arxiv

5+阅读 · 2019年9月7日

Learning Discrete Structures for Graph Neural Networks

Arxiv

6+阅读 · 2019年5月17日

Semi-supervised Node Classification via Hierarchical Graph Convolutional Networks

Arxiv

14+阅读 · 2019年3月5日

Topology Adaptive Graph Convolutional Networks

Arxiv

3+阅读 · 2018年2月11日

Safety-aware Adaptive Reinforcement Learning with Applications to Brushbot Navigation

Arxiv

4+阅读 · 2018年1月29日

VIP会员

相关主题

人体姿态估计

图卷积网络

相关VIP内容

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

专知会员服务

14+阅读 · 2020年6月18日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

51+阅读 · 2020年5月26日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

45+阅读 · 2020年4月17日

【CVPR2020】图神经网络中的几何原理连接

【CVPR2020】图神经网络中的几何原理连接

专知会员服务

57+阅读 · 2020年4月8日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【CVPR2020-牛津大学】具有自适应邻域一致性的通信网络，Correspondence Networks with Adaptive Neighbourhood Consensus

【CVPR2020-牛津大学】具有自适应邻域一致性的通信网络，Correspondence Networks with Adaptive Neighbourhood Consensus

专知会员服务

16+阅读 · 2020年3月27日

近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码

近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【深度估计| 2019最新综述】单目深度估计方法综述（Monocular Depth Estimation: A Survey）

专知会员服务

69+阅读 · 2019年11月23日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《生成式人工智能与大/小语言模型在供应链管理决策优化与可持续性提升中的作用评估》最新51页

白宫发布《赢得AI竞赛：美国人工智能行动计划》最新28页

地下战：地下空间的战略博弈

《美地下作战条令手册》228页

相关资讯

【泡泡点云时空】StereoDRNet：基于扩张卷积的双目残差网络

【泡泡点云时空】StereoDRNet：基于扩张卷积的双目残差网络

泡泡机器人SLAM

13+阅读 · 2019年9月8日

图卷积在基于骨架的动作识别中的应用

图卷积在基于骨架的动作识别中的应用

极市平台

24+阅读 · 2019年6月4日

【泡泡图灵智库】基于几何一致性网络的摄像机运动估计

【泡泡图灵智库】基于几何一致性网络的摄像机运动估计

泡泡机器人SLAM

9+阅读 · 2019年5月13日

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

泡泡机器人SLAM

11+阅读 · 2019年5月8日

【泡泡图灵智库】不基于传感器的深度估计: 利用单目视频进行结构性的无监督学习（CVPR）

【泡泡图灵智库】不基于传感器的深度估计: 利用单目视频进行结构性的无监督学习（CVPR）

泡泡机器人SLAM

3+阅读 · 2019年4月16日

CVPR 2019 | 基于骨架表达的单张图片三维物体重建方法

CVPR 2019 | 基于骨架表达的单张图片三维物体重建方法

PaperWeekly

4+阅读 · 2019年4月10日

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

机器之心

3+阅读 · 2019年1月28日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

AAAI 2018 | 时空图卷积网络：港中文提出基于动态骨骼的行为识别新方案

AAAI 2018 | 时空图卷积网络：港中文提出基于动态骨骼的行为识别新方案

机器之心

8+阅读 · 2018年1月31日

用于RGB-D室内场景语义分割的门式融合局部感知反卷积网络

用于RGB-D室内场景语义分割的门式融合局部感知反卷积网络

机器学习研究会

7+阅读 · 2017年10月30日

相关论文

Fixed-Point Convolutional Neural Network for Real-Time Video Processing in FPGA

Arxiv

0+阅读 · 2020年12月3日

PlueckerNet: Learn to Register 3D Line Reconstructions

Arxiv

0+阅读 · 2020年12月2日

Directed Graph Attention Neural Network Utilizing 3D Coordinates for Molecular Property Prediction

Arxiv

0+阅读 · 2020年12月1日

Anisotropic local constant smoothing for change-point regression function estimation

Arxiv

0+阅读 · 2020年12月1日

Representation of 2D frame less visual space as a neural manifold and its information geometric interpretation

Arxiv

0+阅读 · 2020年11月27日

Graph Convolutional Networks for Temporal Action Localization

Arxiv

5+阅读 · 2019年9月7日

Learning Discrete Structures for Graph Neural Networks

Arxiv

6+阅读 · 2019年5月17日

Semi-supervised Node Classification via Hierarchical Graph Convolutional Networks

Arxiv

14+阅读 · 2019年3月5日

Topology Adaptive Graph Convolutional Networks

Arxiv

3+阅读 · 2018年2月11日

Safety-aware Adaptive Reinforcement Learning with Applications to Brushbot Navigation

Arxiv

4+阅读 · 2018年1月29日

大家都在搜

软件无线电

智库最新报告

久别重逢话双塔

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员