视频识别作为视频理解的基础技术,是近几年非常热门的计算机视觉研究方向。现有的基于3D卷积网络的方法识别精度优异但计算量偏大,基于2D网络的方法虽然相对轻量但精度不及3D卷积网络。本文提出一种轻量的多视角融合模块(MVF Module)用于高效率且高性能的视频识别,该模块是一个即插即用的模块,能够直接插入到现有的2D卷积网络中构成一个简单有效的模型,称为MVFNet。此外,MVFNet可以视为一种通用的视频建模框架,通过设置模块内的参数,MVFNet可转化为经典的C2D, SlowOnly和TSM网络。实验结果显示,在五个视频benchmark(Kinetics-400, Something-Something V1 & V2, UCF101, HMDB51)上,MVFNet仅仅使用2D卷积网络的计算量就能够取得与当前最先进的3D卷积网络媲美甚至更高的性能。
https://www.zhuanzhi.ai/paper/b302552597bbfda247d10c339604673f