基于人体骨架的行为识别【附PPT与视频资料】

2019 年 1 月 15 日 人工智能前沿讲习班

关注文章公众号

回复"司晨阳"获取PPT资料

视频资料可点击下方阅读原文在线观看

导读

基于人体骨架的行为识别是一个重要而且具有挑战性的计算机视觉任务。人体图像视频不仅包含了复杂的背景，还有光照变化、人体外貌变化等不确定因素，这使得基于图像视频的行为识别具有一定的局限性。相比图像视频，人体骨架视频可以很好地克服这些不确定因素的影响，所以基于人体骨架的行为识别受到越来越多的关注。人体骨架序列不仅包含了时序特征，而且还包含了人体的空间结构特征，如何有效地从人体骨架序列中提取具有判别性的空间和时间特征是一个有待解决的问题。我们提出了Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning，并发表在ECCV18上。

作者简介

司晨阳，中国科学院自动化研究所在读三年级直博博士，本科毕业于郑州大学，已在CVPR、ECCV上发表论文，目前主要研究兴趣为行为识别方向。

http://www.escience.cn/people/ChenyangSi/index.html

Introduction

近几年基于人体骨架的行为识别已经有很多工作，这些工作在公开数据库上的精度都有很好的提升，但是仍然有一些问题没有解决：1、人的运动是由各个part协调完成的，如行走不仅需要腿的运动，还需要手臂的运动维持身体平衡，但是大部分的工作将人体的关键点直接concatenate成vector, 然后输入到LSTM里面处理，这样是很难学习到人体结构的空间特征的。2、现有的方法利用LSTM网络直接对整个骨架序列进行时序建模，然后利用最后一时刻的hidden state作为时序的表示，这样对于短时序是有效的，但是对于长时序序列，最后一时刻的状态很难表示整个序列的时序特征，也不能包含详细的时序动态特征。为了解决这两个问题，我们提出了Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning [5]。

Related works

Song et al. [1] 提出了spatial-temporal attention网络，在空间上利用注意机制选择人体重要的关节点信息，在时间上通过注意机制选择关键帧信息，通过spatial-temporal attention获取具有判别性的时空特征。Zhang et al. [2] 提出了一个View adaptive recurrent neural networks，利用两个LSTM子网络回归骨架的空间旋转参数和空间平移参数，然后将骨架旋转到一个适合行为预测的角度，最后送入主LSTM网络预测行为类别。Yan et al. [3] 提出了一个 Spatial Temporal Graph Convolutional Networks学习人体骨架序列的时空特征，这是第一个将GCN模型用着这个任务上的工作。Li et al. [4] 提出利用一个hierarchical CNN网络学习空间上人体关节点之间的空间信息和序列之间的动态特征。

Methods

在ECCV2018的工作中，我们提出了通过空间推理和时序堆叠学习的方式建模鲁棒的空间和时间特征。下图是我们的网络模型

在空间上，我们将人体结构划分为多个身体部位，如：头、手臂，躯干、腿等结构，并提出利用一个残差图神经网络(residual graph neural network（RGNN）)去建模各个身体部位之间的人体结构特征。

残差图神经网络residual graph neural network（RGNN）的详细操作如图所示：

在时序上，我们设计了一个时序堆叠网络temporal stack learning network（TSLN），该网络可以获取详细的时序动态特征。

首先我们将长时序列划分成多个连续的短时clip，每个clip通过LSTM进行时序建模，不同clip之间的LSTM是参数共享的。每个短时序clip的最后一个隐含层的状态最为这个clip的表示，然后将该clip以及之前的所有clip的表示进行累加，列所包含的所有详细的动态特征。为了更好地保持表示从开始到该clip的为止的长时序序clip之间的时序关系，我们将这个详细的动态特征去初始化下一个clip的LSTM。

在此基础上，我们提出了一种增量式损失函数Clip-based Incremental Loss，该损失函数可

以提升网络对细节行为的理解，不仅加速了网络的收敛，而且可以明显提升行为识别精度。

Experiments

所提出的方法在两个行为识别数据集上验证了有效性，取得了当前最好的识别精度。

在NTU RGB+D数据集上的实验结果：

在SYSU 3D Human-Object Interaction dataset 上的实验结果：

TakeHome Message

基于骨架序列的行为识别仍然是计算机视觉领域一个重要的研究方向，虽然这几年的算法在性能上有很大的提升，但是对于那些微小局部动作的识别还存在一些问题，仍然是非常具有挑战性的任务，存在很大的提升空间。

Reference

1. Sijie Song, Cuiling Lan, Junliang Xing, Wenjun Zeng, Jiaying Liu. Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition. In AAAI, 2018

2. Pengfei Zhang, Cuiling Lan, Junliang Xing, Wenjun Zeng, Jianru Xue, Nanning Zheng. View adaptive recurrent neural networks for high performance human action recognition from skeleton data. In ICCV, 2017

3. Sijie Yan and Yuanjun Xiong and Dahua Lin. Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition. In AAAI, 2018

4. Chao Li, Qiaoyong Zhong, Di Xie, Shiliang Pu. Co-occurrence feature learning from skeleton data for action recognition and detection with hierarchical aggregation. In IJCAI, 2018

5. Chenyang Si, Ya Jing, Wei Wang, Liang Wang, and Tieniu Tan, Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning. In ECCV 2018.

SFFAI讲者招募

为了满足人工智能不同领域研究者相互交流、彼此启发的需求，我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动，邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果，使专注于各个细分领域的研究者开拓视野、触类旁通。

SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展，将对线下讨论的内容进行线上传播，使后来者少踩坑，也为讲者塑造个人影响力。

SFFAI还将构建人工智能领域的知识树（AI Knowledge Tree），通过汇总各位参与者贡献的领域知识，沉淀线下分享的前沿精华，使AI Knowledge Tree枝繁叶茂，为人工智能社区做出贡献。

这项意义非凡的社区工作正在稳步向前，衷心期待和感谢您的支持与奉献！

有意加入者请与我们联系：wangxl@mustedu.cn