【论文笔记】用于动作识别的空间残差层和密集连接块增强的时空图卷积网络

2020 年 1 月 13 日 专知

导读

近期的研究表明，利用图卷积网络(GCN)对人体的动态关节特征进行建模是基于骨骼的动作识别的一种开创性方法。然而，如何对相关骨架信息进行建模和综合利用仍然是一个悬而未决的问题。为了捕捉丰富的时空信息，更有效地利用特征，文中引入了空间残差层和密集块增强的时空图卷积网络，在降低复杂度的同时提取更精确、丰富的时空特征。

贡献

这篇文章的主要贡献如下：

1）文中提出了一个跨域空间残差层，可以有效的捕获时空信息；

2）提出了一种密集连接块用于ST-GCN学习全局信息，提高特征的鲁棒性；

3）空间残差层和密集连接块增强的时空图卷积网络在两个基准数据集上具有相当或优于最新方法的性能。

方法概述

准备工作

图的定义

在一个图G = （V,E）中，V是节点的集合，E是边的集合，连接相邻的节点。A是图的邻接矩阵。如果第i个与第j个节点间存在连接，则A_{i,j}=1,否则A_{i,j}=0.图G的归一化邻接矩阵定义为：

其中：

D是图G的度矩阵

对于每一个骨架数据，整个人体骨架构成一个图形结构，其中骨架的关节和骨胳是图形的点和边，使用特征矩阵表示关节的坐标信息（可以是2D或3D坐标（x,y）或者（x,y,z）），特征矩阵表示为：

X∈R^{n*d*T}

其中：

n是一帧中的关节数
d是关节空间坐标的维度
T表示一个视频中的帧数
X_t = X_{:,:,t}是第t帧的关节位置信息
X^i_t = X_{i,:,:,t}是第i的节点的在第t帧的关节位置信息

时空图卷积网络

让X∈R^{n*d_in}为关节的输入特征，Y∈R^{n*d_out}为通过图卷积操作获得的输出特征，图卷积操作可以计算为：

其中：

~A是归一化的邻接矩阵，可以计算为：

M∈R^{n*n}与W∈R^{n*d_out}是可训练权重表示边与节点的重要性

时空图卷积新的结构

基于原来的时空图卷积网络，文中提出了一个新的时空图卷积框架——空间残差层和密集连接块增强的时空图卷积网络（SDGCN）

空间残差层（SRL）

为了更有效地学习时空信息，文中在时空GCN层的输入和输出之间引入了一种二维空间残差结构（绿色块），如下图所示：

加入空间残差结构的时空图卷积可以计算为：

其中：

B表示时间卷积核
X表示输入特征
Y表示时空图卷积的输出特征

密集连接块（DBC）

从DenseNet中受到启发，文中在时空图卷积网络中引入了密集连接，下图为一个密集连接块的示例，每一个SRL层的输入特征都与先前的SRL层的输出特征有关。

在每个密集连接块中，每一层都已连接到所有后续层，对于第l层，输出特征表示为：

其中：

[x_0，x_1，.，x_{l−1}]是第0，1，.，l−1层的所有输出特征的串联
C是空间残差层（SRL）操作

模型框架

通过将空间残留层和密集连接块结合在一起，可以形成改进的时空图卷积的最终的体系结构，表示为SDGCN。如下图所示，几个空间残差层（图中的圆圈）组成一个密集连接块。

整个网络结构由3个密集连接块组成，并且文中设置了两中不同的框架，右侧框架（DCB2）中每个模块由三个密集连接块组成，每个密集连接包含四个空间残差层。而在左侧框架（DCB1）中，除了第一个连接块与右侧一致之外，之后两个块的层数都减少到了三层。

实验

数据集

1）Kinetics：是从YouTube收集的动作识别数据集，有400个类，并且划分为24万个训练样本和2万个验证样本。该数据集只包含视频数据，需要使用OpenPose工具箱来获取骨架数据，包含每帧图片的18个关节点的二维坐标和置信度分数

2）NTU-RGB+D：是由三台摄像机拍摄的56，800个动作样本，该数据包括，RGB视频、深度图序列、3D骨架和红外视频，3D骨架包括在视频的每帧中标记的25个关节点的空间位置的三维坐标。

实验结果

为了探索空间残差层与密集连接的效果，文中使用STGCN作为基准模型，分别在两个数据集上对比了只包含这两个模块的模型的结果，从表1与表2中我们可以得到与原始STGCN相比，空间残差层与密集连接对于动作识别的准确率都有所提升。

文中也在两个数据集上对比了SDGCN与其它基准模型的效果，如表3与表4所示，可以看到2s-SDGCN的性能优与大部分的基准模型。

结论

为了提高基于骨架的动作识别性能，文中提出了一种统一的时空图卷积网络框架SDGCN。该方法通过引入跨域空间图残差层和密集连接块，充分利用了时空信息。提高了时空信息处理的有效性。它可以很容易地并入主流的时空图网络。

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程视频资料和与专家交流咨询！

点击“阅读原文”，了解使用专知，查看5000+AI主题知识资料

登录查看更多

相关内容

时空图

关注 2

【KDD2020】自适应多通道图卷积神经网络

专知会员服务

121+阅读 · 2020年7月9日

【CVPR2020】时序分组注意力视频超分

专知会员服务

31+阅读 · 2020年7月1日

【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐

专知会员服务

73+阅读 · 2020年6月1日

近期必读的五篇计算机视觉顶会CVPR 2020【图神经网络 (GNN) 】相关论文-Part 3

专知会员服务

90+阅读 · 2020年5月19日

【IJCAI2020】图神经网络预测结构化实体交互

专知会员服务

43+阅读 · 2020年5月13日

【CVPR2020】图神经网络中的几何原理连接

专知会员服务

57+阅读 · 2020年4月8日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知会员服务

40+阅读 · 2020年3月31日

【CVPR2020-百度】用于视觉识别的门控信道变换

专知会员服务

13+阅读 · 2020年3月30日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

【论文笔记】通过自注意力网络的动态图表示学习

专知

89+阅读 · 2019年12月2日

【论文笔记】Graph U-Nets

专知

81+阅读 · 2019年11月25日

【论文笔记】自注意力图池化

专知

82+阅读 · 2019年11月18日

【论文笔记】具有可微分池化的分层图表示学习

专知

46+阅读 · 2019年11月11日

【论文笔记】用于深度时空图建模的Geaph WaveNet

专知

106+阅读 · 2019年11月4日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

44+阅读 · 2019年10月28日

【论文笔记】基于门控图网络实现图到序列学习

专知

56+阅读 · 2019年10月5日

【论文笔记】图卷积的解释性技术

专知

18+阅读 · 2019年9月28日

【泡泡一分钟】用于点云三维语义分割的分层深度图卷积神经网络

泡泡机器人SLAM

31+阅读 · 2019年9月13日

图卷积在基于骨架的动作识别中的应用

极市平台

24+阅读 · 2019年6月4日

Hierarchical Contextualized Representation for Named Entity Recognition

Arxiv

4+阅读 · 2019年11月19日

FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking

Arxiv

7+阅读 · 2019年4月10日

MedGCN: Graph Convolutional Networks for Multiple Medical Tasks

Arxiv

8+阅读 · 2019年3月31日

Confidence-based Graph Convolutional Networks for Semi-Supervised Learning

Arxiv

7+阅读 · 2019年2月12日

3D-LaneNet: end-to-end 3D multiple lane detection

Arxiv

7+阅读 · 2018年11月26日

Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling

Arxiv

11+阅读 · 2018年6月16日

Recursive Neural Network Based Preordering for English-to-Japanese Machine Translation

Arxiv

7+阅读 · 2018年5月25日

AAANE: Attention-based Adversarial Autoencoder for Multi-scale Network Embedding

Arxiv

6+阅读 · 2018年3月24日

Towards Neural Phrase-based Machine Translation

Arxiv

4+阅读 · 2018年1月29日

Hierarchical Label Inference for Video Classification

Arxiv

6+阅读 · 2018年1月21日

VIP会员