Endowing visual agents with predictive capability is a key step towards video intelligence at scale. The predominant modeling paradigm for this is sequence learning, mostly implemented through LSTMs. Feed-forward Transformer architectures have replaced recurrent model designs in ML applications of language processing and also partly in computer vision. In this paper we investigate on the competitiveness of Transformer-style architectures for video predictive tasks. To do so we propose HORST, a novel higher order recurrent layer design whose core element is a spatial-temporal decomposition of self-attention for video. HORST achieves state of the art competitive performance on Something-Something-V2 early action recognition and EPIC-Kitchens-55 action anticipation, without exploiting a task specific design. We believe this is promising evidence of causal predictive capability that we attribute to our recurrent higher order design of self-attention.


翻译:赋予具有预测能力的视觉代理器是向大规模视频智能迈出的关键一步。 这方面的主要模型模式是序列学习,大多通过LSTMs实施。 Feed-forward 变异器结构取代了语言处理和部分计算机视觉 ML应用中的经常性模型设计。 在本文中,我们调查了变异器式结构在视频预测任务方面的竞争力。 为了这样做,我们建议了HORST, 一个新的更高级的经常性层设计,其核心要素是空间-时空自控视频。 HORST在某物- Something-V2 早期行动识别和 EPIC-Kitchens-55 行动预期方面达到了最先进的竞争性能,而没有利用特定任务设计。 我们认为,这是我们把这种因果性预测能力归因于我们经常性的更高自控设计。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
【DeepMind】强化学习教程,83页ppt
专知会员服务
148+阅读 · 2020年8月7日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
22+阅读 · 2020年1月28日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
VALSE Webinar 19-15期 自注意机制与图卷积
VALSE
3+阅读 · 2019年6月28日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
0+阅读 · 2021年11月9日
Memory-Gated Recurrent Networks
Arxiv
12+阅读 · 2020年12月24日
Arxiv
4+阅读 · 2018年6月5日
Arxiv
3+阅读 · 2018年2月20日
VIP会员
相关资讯
VALSE Webinar 19-15期 自注意机制与图卷积
VALSE
3+阅读 · 2019年6月28日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Arxiv
39+阅读 · 2021年11月11日
Arxiv
0+阅读 · 2021年11月9日
Memory-Gated Recurrent Networks
Arxiv
12+阅读 · 2020年12月24日
Arxiv
4+阅读 · 2018年6月5日
Arxiv
3+阅读 · 2018年2月20日
Top
微信扫码咨询专知VIP会员