Although synthetic training data has been shown to be beneficial for tasks such as human pose estimation, its use for RGB human action recognition is relatively unexplored. Our goal in this work is to answer the question whether synthetic humans can improve the performance of human action recognition, with a particular focus on generalization to unseen viewpoints. We make use of the recent advances in monocular 3D human body reconstruction from real action sequences to automatically render synthetic training videos for the action labels. We make the following contributions: (i) we investigate the extent of variations and augmentations that are beneficial to improving performance at new viewpoints. We consider changes in body shape and clothing for individuals, as well as more action relevant augmentations such as non-uniform frame sampling, and interpolating between the motion of individuals performing the same action; (ii) We introduce a new data generation methodology, SURREACT, that allows training of spatio-temporal CNNs for action classification; (iii) We substantially improve the state-of-the-art action recognition performance on the NTU RGB+D and UESTC standard human action multi-view benchmarks; Finally, (iv) we extend the augmentation approach to in-the-wild videos from a subset of the Kinetics dataset to investigate the case when only one-shot training data is available, and demonstrate improvements in this case as well.


翻译:虽然合成培训数据被证明有益于人类构成估计等任务,但用于RGB人类行动确认的合成培训数据相对来说是尚未探索的。我们这项工作的目标是回答合成人类能否提高人类行动确认的绩效,特别侧重于一般化和无形观点。我们利用单立立体人体重建的最新进展,从实际行动序列中自动将合成培训视频用于行动标签。我们做出以下贡献:(一)我们调查有利于提高新观点表现的变异和增益的程度。我们考虑个人身体形状和服装的变化,以及更多相关的行动增强,如非统一框架抽样,以及将执行相同行动的个人运动相互交织;(二)我们采用一种新的数据生成方法,即SURREACT,允许对单立体3D型CNN进行行动分类培训;(三)我们大幅改进NTU RGB+D和UESTC标准人类行动多视角基准的状态行动确认绩效。我们考虑的是个人身体形状和服装的变化,以及更多相关的行动增强行动,如非统一框架抽样,以及将执行相同行动的个人运动运动之间的运动;(二)我们采用了一种新的数据生成方法,我们把现有数据生成的升级的升级方法,只用于调查。

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018
泡泡机器人SLAM
29+阅读 · 2018年10月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2020年3月17日
VIP会员
相关资讯
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018
泡泡机器人SLAM
29+阅读 · 2018年10月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员