In this paper, we explore the spatial redundancy in video recognition with the aim to improve the computational efficiency. It is observed that the most informative region in each frame of a video is usually a small image patch, which shifts smoothly across frames. Therefore, we model the patch localization problem as a sequential decision task, and propose a reinforcement learning based approach for efficient spatially adaptive video recognition (AdaFocus). In specific, a light-weighted ConvNet is first adopted to quickly process the full video sequence, whose features are used by a recurrent policy network to localize the most task-relevant regions. Then the selected patches are inferred by a high-capacity network for the final prediction. During offline inference, once the informative patch sequence has been generated, the bulk of computation can be done in parallel, and is efficient on modern GPU devices. In addition, we demonstrate that the proposed method can be easily extended by further considering the temporal redundancy, e.g., dynamically skipping less valuable frames. Extensive experiments on five benchmark datasets, i.e., ActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2, demonstrate that our method is significantly more efficient than the competitive baselines. Code is available at https://github.com/blackfeather-wang/AdaFocus.


翻译:在本文中,我们探索了视频识别的空间冗余,目的是提高计算效率。我们观察到,每个视频框中信息最丰富的区域通常是一个小的图像补丁,它通常在各框架之间平稳移动。因此,我们将补丁本地化问题模拟为顺序决策任务,并提议一个基于强化学习的高效空间适应视频识别方法(AdaFocus ) 。具体地说,我们首先采用轻量级ConvNet来快速处理全视频序列,其特征被一个经常性政策网络用来将最任务相关区域本地化。然后,所选的补丁通过一个高容量网络进行最后预测的推断。在离线推论中,一旦生成了信息补丁序列,大部分计算可以平行进行,并且对现代GPUP装置有效。此外,我们证明,进一步考虑时间冗余,例如,动态跳过价值较低的框架,可以很容易扩展拟议方法。在五个基准数据集上进行广泛的实验,例如,活动Net, FCVID, Mini-Kinetictical, Some-ma-mamaximabthal lax is press Vrevabs) lax_V2,我们现有的标准是比较有效的Vabbbbs_s

0
下载
关闭预览

相关内容

专知会员服务
51+阅读 · 2021年8月8日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
ActivityNet Challenge 2017 冠军方案分享
极市平台
4+阅读 · 2017年7月25日
Arxiv
4+阅读 · 2020年3月27日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
Top
微信扫码咨询专知VIP会员