视频识别作为视频理解的基础技术,是近几年非常热门的计算机视觉研究方向。现有的基于3D卷积网络的方法识别精度优异但计算量偏大,基于2D网络的方法虽然相对轻量但精度不及3D卷积网络。本文提出一种轻量的多视角融合模块(MVF Module)用于高效率且高性能的视频识别,该模块是一个即插即用的模块,能够直接插入到现有的2D卷积网络中构成一个简单有效的模型,称为MVFNet。此外,MVFNet可以视为一种通用的视频建模框架,通过设置模块内的参数,MVFNet可转化为经典的C2D, SlowOnly和TSM网络。实验结果显示,在五个视频benchmark(Kinetics-400, Something-Something V1 & V2, UCF101, HMDB51)上,MVFNet仅仅使用2D卷积网络的计算量就能够取得与当前最先进的3D卷积网络媲美甚至更高的性能。

https://www.zhuanzhi.ai/paper/b302552597bbfda247d10c339604673f

成为VIP会员查看完整内容
10

相关内容

【AAAI2021】用于视频描述的语义分组网络
专知会员服务
15+阅读 · 2021年2月3日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
36+阅读 · 2021年1月24日
【AAAI2021】用于多标签图像分类的深度语义词典学习
专知会员服务
14+阅读 · 2020年12月30日
AAAI2021 | DTGRM:具有自监督时间关系建模的动作分割
专知会员服务
14+阅读 · 2020年12月29日
【AAAI2021】记忆门控循环网络
专知会员服务
47+阅读 · 2020年12月28日
【AAAI2021】 层次图胶囊网络
专知会员服务
80+阅读 · 2020年12月18日
专知会员服务
8+阅读 · 2020年12月10日
Fully-Convolutional Siamese Networks for Object Tracking论文笔记
统计学习与视觉计算组
9+阅读 · 2018年10月12日
【泡泡一分钟】一种用于在线视频理解的高效卷积网络
泡泡机器人SLAM
5+阅读 · 2018年5月31日
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
Arxiv
0+阅读 · 2021年3月29日
Arxiv
0+阅读 · 2021年3月25日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
VIP会员
相关VIP内容
【AAAI2021】用于视频描述的语义分组网络
专知会员服务
15+阅读 · 2021年2月3日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
36+阅读 · 2021年1月24日
【AAAI2021】用于多标签图像分类的深度语义词典学习
专知会员服务
14+阅读 · 2020年12月30日
AAAI2021 | DTGRM:具有自监督时间关系建模的动作分割
专知会员服务
14+阅读 · 2020年12月29日
【AAAI2021】记忆门控循环网络
专知会员服务
47+阅读 · 2020年12月28日
【AAAI2021】 层次图胶囊网络
专知会员服务
80+阅读 · 2020年12月18日
专知会员服务
8+阅读 · 2020年12月10日
微信扫码咨询专知VIP会员