Most action recognition solutions rely on dense sampling to precisely cover the informative temporal clip. Extensively searching temporal region is expensive for a real-world application. In this work, we focus on improving the inference efficiency of current action recognition backbones on trimmed videos, and illustrate that one action model can also cover then informative region by dropping non-informative features. We present Selective Feature Compression (SFC), an action recognition inference strategy that greatly increase model inference efficiency without any accuracy compromise. Differently from previous works that compress kernel sizes and decrease the channel dimension, we propose to compress feature flow at spatio-temporal dimension without changing any backbone parameters. Our experiments on Kinetics-400, UCF101 and ActivityNet show that SFC is able to reduce inference speed by 6-7x and memory usage by 5-6x compared with the commonly used 30 crops dense sampling procedure, while also slightly improving Top1 Accuracy. We thoroughly quantitatively and qualitatively evaluate SFC and all its components and show how does SFC learn to attend to important video regions and to drop temporal features that are uninformative for the task of action recognition.


翻译:多数行动识别方法都依靠密集的取样来精确地覆盖信息丰富的时间片段。 广泛搜索时间区对于真实世界应用来说费用昂贵。 在这项工作中,我们侧重于提高目前剪裁视频中动作识别主干柱的推断效率,并表明一个行动模型也可以通过丢弃非信息化特征来覆盖信息化区域。 我们展示了“选择性特效压缩”(SFC),即一个行动识别推论战略,它极大地提高了模型推导效率,而没有任何准确性妥协。 与以往压缩内核大小并减少频道维度的工程不同,我们提议在不改变任何主干参数的情况下,在时空维度上压缩特征。 我们在“动因果”-400、“UCFC-101”和“活动网”上的实验显示,SFC能够将推断速度减少6-7x,记忆用量减少5-6x,而通常使用的30个作物密集采样程序则略微改进Top1的准确性。 我们从定量和定性角度对SFC及其所有组件进行评估,并展示SFC如何学习如何关注重要的视频区域,并降低对行动不具有说服性的时空特性。

0
下载
关闭预览

相关内容

专知会员服务
24+阅读 · 2021年6月17日
专知会员服务
30+阅读 · 2021年6月12日
【ACMMM2020】小规模行人检测的自模拟学习
专知会员服务
9+阅读 · 2020年9月25日
专知会员服务
59+阅读 · 2020年3月19日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
30+阅读 · 2019年10月16日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
Arxiv
5+阅读 · 2020年3月16日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
Top
微信扫码咨询专知VIP会员