While state-of-the-art 3D Convolutional Neural Networks (CNN) achieve very good results on action recognition datasets, they are computationally very expensive and require many GFLOPs. While the GFLOPs of a 3D CNN can be decreased by reducing the temporal feature resolution within the network, there is no setting that is optimal for all input clips. In this work, we therefore introduce a differentiable Similarity Guided Sampling (SGS) module, which can be plugged into any existing 3D CNN architecture. SGS empowers 3D CNNs by learning the similarity of temporal features and grouping similar features together. As a result, the temporal feature resolution is not anymore static but it varies for each input video clip. By integrating SGS as an additional layer within current 3D CNNs, we can convert them into much more efficient 3D CNNs with adaptive temporal feature resolutions (ATFR). Our evaluations show that the proposed module improves the state-of-the-art by reducing the computational cost (GFLOPs) by half while preserving or even improving the accuracy. We evaluate our module by adding it to multiple state-of-the-art 3D CNNs on various datasets such as Kinetics-600, Kinetics-400, mini-Kinetics, Something-Something~V2, UCF101, and HMDB51.


翻译:虽然最先进的3D进化神经网络(CNN)在行动识别数据集上取得了非常好的成果,但它们在计算上非常昂贵,需要许多GFLOP。 虽然3DCNN的GFLOP可以通过降低网络内的时间特征分辨率来减少GFLOP, 但对于所有输入剪辑来说,没有最合适的设置。 因此, 在这项工作中, 我们引入了一个可插入任何现有3DCNN架构的可与众不同的类似制导抽样模块。 SGS通过学习时间特征的相似性和将类似特征组合在一起来增强3DCNN的功能。 结果, 时间特征分辨率不再是静止的,而是每个输入视频剪辑的不同。 通过将SGS作为目前3DCNN的新增层, 我们可以将其转换为效率更高的3DCNN和适应性时间特征分辨率分辨率(ATFR)。 我们的评估表明, 拟议的模块通过将计算成本(GFLOPs)减半,同时保存甚至改进精确度。 我们评估了我们的模块, 作为KINK-K-S-S-S-S-S-S-S-S-S-MIC-S-S-S-S-S-SIMD-S-S-S-S-S-S-S-x-x-S-x-x-x-S-x-SIMD-x-x-x-S-x-x-S-S-x-x-S-S-S-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-xxxxx-x-x-xxxx-x-xxxxxxx-x-x-x-x-x-xxx-x-x-x-x-x-x-x-x-x-xxxxxxxxxxxxxxxxxx-x-xxxxxxxxxxxxxx-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-xx-x-x-x-x-

0
下载
关闭预览

相关内容

专知会员服务
59+阅读 · 2021年3月17日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员