Temporal modelling is the key for efficient video action recognition. While understanding temporal information can improve recognition accuracy for dynamic actions, removing temporal redundancy and reusing past features can significantly save computation leading to efficient action recognition. In this paper, we introduce an adaptive temporal fusion network, called AdaFuse, that dynamically fuses channels from current and past feature maps for strong temporal modelling. Specifically, the necessary information from the historical convolution feature maps is fused with current pruned feature maps with the goal of improving both recognition accuracy and efficiency. In addition, we use a skipping operation to further reduce the computation cost of action recognition. Extensive experiments on Something V1 & V2, Jester and Mini-Kinetics show that our approach can achieve about 40% computation savings with comparable accuracy to state-of-the-art methods. The project page can be found at https://mengyuest.github.io/AdaFuse/


翻译:时间建模是高效视频动作识别的关键。 虽然理解时间信息可以提高动态行动的识别准确度, 消除时间冗余和重复使用过去的特征可以大大节省导致高效行动识别的计算。 在本文中, 我们引入了一个适应性时间聚合网络, 称为AdaFuse, 动态地段连接了当前和以往地段地图的通道, 以便形成强大的时间建模。 具体地说, 历史变迁地貌图中的必要信息与当前经修饰的地貌地图相结合, 目的是提高识别准确度和效率。 此外, 我们使用跳过操作来进一步降低行动识别的计算成本。 在V1 & V2、 Jester 和 Mini- Kinetics 上进行的广泛实验显示, 我们的方法可以实现大约40%的节约, 与最新方法的精确度相当。 项目页面可以在 https:// menguyest.github.io/AdaFuse/ 上找到。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
专知会员服务
60+阅读 · 2021年3月17日
【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测
专知会员服务
25+阅读 · 2020年12月27日
专知会员服务
47+阅读 · 2020年12月20日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
61+阅读 · 2020年5月9日
专知会员服务
110+阅读 · 2020年3月12日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
158+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
Top
微信扫码咨询专知VIP会员