Human motion prediction aims to forecast future human poses given a historical motion. Whether based on recurrent or feed-forward neural networks, existing learning based methods fail to model the observation that human motion tends to repeat itself, even for complex sports actions and cooking activities. Here, we introduce an attention based feed-forward network that explicitly leverages this observation. In particular, instead of modeling frame-wise attention via pose similarity, we propose to extract motion attention to capture the similarity between the current motion context and the historical motion sub-sequences. In this context, we study the use of different types of attention, computed at joint, body part, and full pose levels. Aggregating the relevant past motions and processing the result with a graph convolutional network allows us to effectively exploit motion patterns from the long-term history to predict the future poses. Our experiments on Human3.6M, AMASS and 3DPW validate the benefits of our approach for both periodical and non-periodical actions. Thanks to our attention model, it yields state-of-the-art results on all three datasets. Our code is available at https://github.com/wei-mao-2019/HisRepItself.


翻译:人类运动预测旨在预测未来人类构成的历史动因。无论是基于经常性或饲料向前进的神经网络,现有基于学习的方法都无法模拟人类运动往往重复的观察,即使是复杂的运动和烹饪活动也是如此。在这里,我们引入了基于关注的进化前网络,明确利用这一观察。特别是,我们提议通过模拟框架关注,而不是通过相似性来模拟框架关注,而是吸引运动关注,以捕捉当前运动背景与历史运动次序列之间的相似性。在这方面,我们研究不同类型关注的使用情况,在联合、身体部分和完整成形级别上计算。将以往的相关动议汇总起来,并用图表革命网络处理结果,使我们能够有效利用长期历史的运动模式来预测未来构成。我们在人类3.6M、AMAS和3DPW的实验证实了我们做法对于定期和非周期行动的好处。由于我们的注意模型,我们对所有三种数据集都产生了最新的结果。我们的代码可以在 https://github.com/weimaus-20IMS.

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
专知会员服务
30+阅读 · 2021年7月30日
【WSDM2021】注意力流:时间序列网络中的可视化影响力
专知会员服务
24+阅读 · 2021年2月20日
注意力机制介绍,Attention Mechanism
专知会员服务
169+阅读 · 2019年10月13日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
6+阅读 · 2018年6月21日
VIP会员
相关资讯
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员