Spatio-temporal representational learning has been widely adopted in various fields such as action recognition, video object segmentation, and action anticipation. Previous spatio-temporal representational learning approaches primarily employ ConvNets or sequential models,e.g., LSTM, to learn the intra-frame and inter-frame features. Recently, Transformer models have successfully dominated the study of natural language processing (NLP), image classification, etc. However, the pure-Transformer based spatio-temporal learning can be prohibitively costly on memory and computation to extract fine-grained features from a tiny patch. To tackle the training difficulty and enhance the spatio-temporal learning, we construct a shifted chunk Transformer with pure self-attention blocks. Leveraging the recent efficient Transformer design in NLP, this shifted chunk Transformer can learn hierarchical spatio-temporal features from a local tiny patch to a global video clip. Our shifted self-attention can also effectively model complicated inter-frame variances. Furthermore, we build a clip encoder based on Transformer to model long-term temporal dependencies. We conduct thorough ablation studies to validate each component and hyper-parameters in our shifted chunk Transformer, and it outperforms previous state-of-the-art approaches on Kinetics-400, Kinetics-600, UCF101, and HMDB51.


翻译:在行动识别、视频对象分割和预期行动等各个领域广泛采用时空代表学习。以前的时空代表学习方法主要采用ConvNets或顺序模型,例如LSTM,以学习框架内和框架间特点。最近,变形模型成功地主导了自然语言处理(NLP)、图像分类等研究。然而,纯半透明基于600的时空空间学习对记忆和计算从一个小补丁中提取精细的成份成本过高。为了解决培训困难,加强时空学习,我们用纯自省块构建一个变形块变形器。利用NLP最近的高效变形器设计,这种变形模型可以学习从一个本地小补丁到一个全球视频剪接的上层-时空特征。我们变形的自我学习也可以有效地模拟复杂的跨框架差异。此外,我们用变形机、101和变形的硬基质模型构建了一个剪接器,我们每个变形的变形模型和变形的时空基础,我们每个变型的时空的时空基础,在以往的时空基础上都进行。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
304+阅读 · 2020年11月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
150+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
13+阅读 · 2021年10月9日
Arxiv
3+阅读 · 2020年11月28日
Arxiv
4+阅读 · 2019年11月25日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
VIP会员
相关论文
Arxiv
11+阅读 · 2021年10月26日
Arxiv
13+阅读 · 2021年10月9日
Arxiv
3+阅读 · 2020年11月28日
Arxiv
4+阅读 · 2019年11月25日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Top
微信扫码咨询专知VIP会员