基于人体骨架的行为识别【附PPT与视频资料】

2019 年 1 月 15 日 人工智能前沿讲习班

关注文章公众号

回复"司晨阳"获取PPT资料

视频资料可点击下方阅读原文在线观看


导读


基于人体骨架的行为识别是一个重要而且具有挑战性的计算机视觉任务。人体图像视频不仅包含了复杂的背景,还有光照变化、人体外貌变化等不确定因素,这使得基于图像视频的行为识别具有一定的局限性。相比图像视频,人体骨架视频可以很好地克服这些不确定因素的影响,所以基于人体骨架的行为识别受到越来越多的关注。人体骨架序列不仅包含了时序特征,而且还包含了人体的空间结构特征,如何有效地从人体骨架序列中提取具有判别性的空间和时间特征是一个有待解决的问题。我们提出了Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning,并发表在ECCV18上。


作者简介


司晨阳,中国科学院自动化研究所在读三年级直博博士,本科毕业于郑州大学,已在CVPR、ECCV上发表论文,目前主要研究兴趣为行为识别方向。

http://www.escience.cn/people/ChenyangSi/index.html 


Introduction


近几年基于人体骨架的行为识别已经有很多工作,这些工作在公开数据库上的精度都有很好的提升,但是仍然有一些问题没有解决:1、人的运动是由各个part协调完成的,如行走不仅需要腿的运动,还需要手臂的运动维持身体平衡,但是大部分的工作将人体的关键点直接concatenate成vector, 然后输入到LSTM里面处理,这样是很难学习到人体结构的空间特征的。2、现有的方法利用LSTM网络直接对整个骨架序列进行时序建模,然后利用最后一时刻的hidden state作为时序的表示,这样对于短时序是有效的,但是对于长时序序列,最后一时刻的状态很难表示整个序列的时序特征,也不能包含详细的时序动态特征。为了解决这两个问题,我们提出了Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning [5]。


Related works


Song et al. [1] 提出了spatial-temporal attention网络,在空间上利用注意机制选择人体重要的关节点信息,在时间上通过注意机制选择关键帧信息,通过spatial-temporal attention获取具有判别性的时空特征。Zhang et al. [2] 提出了一个View adaptive recurrent neural networks,利用两个LSTM子网络回归骨架的空间旋转参数和空间平移参数,然后将骨架旋转到一个适合行为预测的角度,最后送入主LSTM网络预测行为类别。Yan et al. [3] 提出了一个 Spatial Temporal Graph Convolutional Networks学习人体骨架序列的时空特征,这是第一个将GCN模型用着这个任务上的工作。Li et al. [4] 提出利用一个hierarchical CNN网络学习空间上人体关节点之间的空间信息和序列之间的动态特征。


Methods


在ECCV2018的工作中,我们提出了通过空间推理和时序堆叠学习的方式建模鲁棒的空间和时间特征。下图是我们的网络模型

在空间上,我们将人体结构划分为多个身体部位,如:头、手臂,躯干、腿等结构,并提出利用一个残差图神经网络(residual graph neural network(RGNN))去建模各个身体部位之间的人体结构特征。

残差图神经网络residual graph neural network(RGNN)的详细操作如图所示:

在时序上,我们设计了一个时序堆叠网络temporal stack learning network(TSLN),该网络可以获取详细的时序动态特征。

首先我们将长时序列划分成多个连续的短时clip,每个clip通过LSTM进行时序建模,不同clip之间的LSTM是参数共享的。每个短时序clip的最后一个隐含层的状态最为这个clip的表示,然后将该clip以及之前的所有clip的表示进行累加,列所包含的所有详细的动态特征。为了更好地保持表示从开始到该clip的为止的长时序序clip之间的时序关系 ,我们将这个详细的动态特征去初始化下一个clip的LSTM。

在此基础上,我们提出了一种增量式损失函数Clip-based Incremental Loss,该损失函数可

以提升网络对细节行为的理解,不仅加速了网络的收敛,而且可以明显提升行为识别精度。


Experiments


所提出的方法在两个行为识别数据集上验证了有效性,取得了当前最好的识别精度。

在NTU RGB+D数据集上的实验结果:

在SYSU 3D Human-Object Interaction dataset 上的实验结果:


TakeHome Message


基于骨架序列的行为识别仍然是计算机视觉领域一个重要的研究方向,虽然这几年的算法在性能上有很大的提升,但是对于那些微小局部动作的识别还存在一些问题,仍然是非常具有挑战性的任务,存在很大的提升空间。


Reference


1. Sijie Song, Cuiling Lan, Junliang Xing, Wenjun Zeng, Jiaying Liu. Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition. In AAAI, 2018

2. Pengfei Zhang, Cuiling Lan, Junliang Xing, Wenjun Zeng, Jianru Xue, Nanning Zheng. View adaptive recurrent neural networks for high performance human action recognition from skeleton data. In ICCV, 2017

3. Sijie Yan and Yuanjun Xiong and Dahua Lin. Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition. In AAAI, 2018

4. Chao Li, Qiaoyong Zhong, Di Xie, Shiliang Pu. Co-occurrence feature learning from skeleton data for action recognition and detection with hierarchical aggregation. In IJCAI, 2018

5. Chenyang Si, Ya Jing, Wei Wang, Liang Wang, and Tieniu Tan, Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning. In ECCV 2018.


SFFAI讲者招募

为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。

SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展,将对线下讨论的内容进行线上传播,使后来者少踩坑,也为讲者塑造个人影响力。

SFFAI还将构建人工智能领域的知识树(AI Knowledge Tree),通过汇总各位参与者贡献的领域知识,沉淀线下分享的前沿精华,使AI Knowledge Tree枝繁叶茂,为人工智能社区做出贡献。

这项意义非凡的社区工作正在稳步向前,衷心期待和感谢您的支持与奉献!


有意加入者请与我们联系:wangxl@mustedu.cn


历史文章推荐:

重磅 |《模式识别与机器学习》资源大礼包

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

SFFAI分享 | 曹杰:Rotating is Believing

SFFAI分享 | 黄怀波 :自省变分自编码器理论及其在图像生成上的应用

AI综述专栏 | 深度神经网络加速与压缩

SFFAI分享 | 田正坤 :Seq2Seq模型在语音识别中的应用

SFFAI 分享 | 王克欣 : 详解记忆增强神经网络

SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展

SFFAI 分享 | 李宏扬 :二阶信息在图像分类中的应用


录播视频,请点击下方
阅读原文
观看
↓↓

若您觉得此篇推文不错,麻烦点点好看↓↓

登录查看更多
31

相关内容

行为识别的要旨是企业在内部协调和对外交往中应该有一种规范性准则。这种准则具体体现在全体员工上下一致的日常行为中。也就是说,员工们的一招一式的行为举动都应该是一种企业行为,能反映出企业的经营理念和价值取向,而不是独立的随心所欲的个人行为。
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文
专知会员服务
78+阅读 · 2020年3月3日
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
68+阅读 · 2020年2月29日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
八篇 ICCV 2019 【图神经网络(GNN)+CV】相关论文
专知会员服务
29+阅读 · 2020年1月10日
深度学习视频中多目标跟踪:论文综述
专知会员服务
92+阅读 · 2019年10月13日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
16+阅读 · 2019年1月30日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
基于素描图的细粒度图像检索【附PPT与视频资料】
人工智能前沿讲习班
12+阅读 · 2018年12月27日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
【技术分享】基于双流递归神经网络的人体骨架行为识别
机器学习研究会
5+阅读 · 2017年9月1日
Neural Response Generation with Meta-Words
Arxiv
6+阅读 · 2019年6月14日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
15+阅读 · 2018年6月23日
Arxiv
6+阅读 · 2018年6月20日
VIP会员
相关VIP内容
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文
专知会员服务
78+阅读 · 2020年3月3日
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
68+阅读 · 2020年2月29日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
八篇 ICCV 2019 【图神经网络(GNN)+CV】相关论文
专知会员服务
29+阅读 · 2020年1月10日
深度学习视频中多目标跟踪:论文综述
专知会员服务
92+阅读 · 2019年10月13日
相关资讯
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
16+阅读 · 2019年1月30日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
基于素描图的细粒度图像检索【附PPT与视频资料】
人工智能前沿讲习班
12+阅读 · 2018年12月27日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
【技术分享】基于双流递归神经网络的人体骨架行为识别
机器学习研究会
5+阅读 · 2017年9月1日
Top
微信扫码咨询专知VIP会员