【AAAI2021】MVFNet: 用于高效视频识别的多视角融合网络 - 专知VIP

会员服务 ·

0

视频识别 · 多视角融合网络 ·

2021 年 2 月 4 日

【AAAI2021】MVFNet: 用于高效视频识别的多视角融合网络

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视频识别作为视频理解的基础技术，是近几年非常热门的计算机视觉研究方向。现有的基于3D卷积网络的方法识别精度优异但计算量偏大，基于2D网络的方法虽然相对轻量但精度不及3D卷积网络。本文提出一种轻量的多视角融合模块（MVF Module）用于高效率且高性能的视频识别，该模块是一个即插即用的模块，能够直接插入到现有的2D卷积网络中构成一个简单有效的模型，称为MVFNet。此外，MVFNet可以视为一种通用的视频建模框架，通过设置模块内的参数，MVFNet可转化为经典的C2D, SlowOnly和TSM网络。实验结果显示，在五个视频benchmark（Kinetics-400, Something-Something V1 & V2, UCF101, HMDB51）上，MVFNet仅仅使用2D卷积网络的计算量就能够取得与当前最先进的3D卷积网络媲美甚至更高的性能。

https://www.zhuanzhi.ai/paper/b302552597bbfda247d10c339604673f

成为VIP会员查看完整内容

11

相关内容

视频识别

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知会员服务

62+阅读 · 2021年2月6日

【AAAI2021】用于视频描述的语义分组网络

【AAAI2021】用于视频描述的语义分组网络

专知会员服务

16+阅读 · 2021年2月3日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】用于多标签图像分类的深度语义词典学习

【AAAI2021】用于多标签图像分类的深度语义词典学习

专知会员服务

15+阅读 · 2020年12月30日

AAAI2021 | DTGRM：具有自监督时间关系建模的动作分割

AAAI2021 | DTGRM：具有自监督时间关系建模的动作分割

专知会员服务

15+阅读 · 2020年12月29日

【AAAI2021】记忆门控循环网络

【AAAI2021】记忆门控循环网络

专知会员服务

50+阅读 · 2020年12月28日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2020】CompFeat:用于视频实例分割的综合特征聚合

专知会员服务

9+阅读 · 2020年12月10日

【ECCV2020诺亚】利用循环卷积网络与分频段处理的视频超分辨算法

【ECCV2020诺亚】利用循环卷积网络与分频段处理的视频超分辨算法

专知会员服务

12+阅读 · 2020年9月2日

【CVPR2020-Facebook AI】扩展架构的高效视频识别，X3D: Expanding Architectures

【CVPR2020-Facebook AI】扩展架构的高效视频识别，X3D: Expanding Architectures

专知会员服务

22+阅读 · 2020年4月11日

OpenPose 升级，CMU提出首个单网络全人体姿态估计网络，速度大幅提高

OpenPose 升级，CMU提出首个单网络全人体姿态估计网络，速度大幅提高

极市平台

7+阅读 · 2019年10月6日

【泡泡点云时空】LaserNet：一种用于自动驾驶的高效三维目标概率检测器

【泡泡点云时空】LaserNet：一种用于自动驾驶的高效三维目标概率检测器

泡泡机器人SLAM

5+阅读 · 2019年5月12日

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

机器之心

3+阅读 · 2019年1月28日

何恺明等最新突破：视频识别快慢结合，取得人体动作AVA数据集最佳水平

何恺明等最新突破：视频识别快慢结合，取得人体动作AVA数据集最佳水平

极市平台

6+阅读 · 2018年12月24日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

Facebook AI实验室何恺明等人提出视频识别SlowFast网络

Facebook AI实验室何恺明等人提出视频识别SlowFast网络

专知

3+阅读 · 2018年12月12日

Fully-Convolutional Siamese Networks for Object Tracking论文笔记

Fully-Convolutional Siamese Networks for Object Tracking论文笔记

统计学习与视觉计算组

10+阅读 · 2018年10月12日

【泡泡点云时空】RSNet：用于3D点云分割的递归切片网络（CVPR2018-14)

【泡泡点云时空】RSNet：用于3D点云分割的递归切片网络（CVPR2018-14)

泡泡机器人SLAM

12+阅读 · 2018年9月18日

【泡泡一分钟】一种用于在线视频理解的高效卷积网络

【泡泡一分钟】一种用于在线视频理解的高效卷积网络

泡泡机器人SLAM

5+阅读 · 2018年5月31日

ETP：精确时序动作定位

ETP：精确时序动作定位

极市平台

13+阅读 · 2018年5月25日

ViViT: A Video Vision Transformer

Arxiv

0+阅读 · 2021年3月29日

Objectness-Aware Few-Shot Semantic Segmentation

Arxiv

0+阅读 · 2021年3月25日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

4+阅读 · 2019年4月18日

Joint Face Detection and Facial Motion Retargeting for Multiple Faces

Joint Face Detection and Facial Motion Retargeting for Multiple Faces

Arxiv

4+阅读 · 2019年2月27日

Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding

Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding

Arxiv

7+阅读 · 2019年2月26日

Stacked Spatio-Temporal Graph Convolutional Networks for Action Segmentation

Stacked Spatio-Temporal Graph Convolutional Networks for Action Segmentation

Arxiv

5+阅读 · 2018年12月6日

Video Object Detection with an Aligned Spatial-Temporal Memory

Video Object Detection with an Aligned Spatial-Temporal Memory

Arxiv

4+阅读 · 2018年7月27日

Fine-grained Activity Recognition in Baseball Videos

Arxiv

6+阅读 · 2018年4月9日

VIP会员

相关主题

多视角融合网络

相关VIP内容

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知会员服务

62+阅读 · 2021年2月6日

【AAAI2021】用于视频描述的语义分组网络

【AAAI2021】用于视频描述的语义分组网络

专知会员服务

16+阅读 · 2021年2月3日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】用于多标签图像分类的深度语义词典学习

【AAAI2021】用于多标签图像分类的深度语义词典学习

专知会员服务

15+阅读 · 2020年12月30日

AAAI2021 | DTGRM：具有自监督时间关系建模的动作分割

AAAI2021 | DTGRM：具有自监督时间关系建模的动作分割

专知会员服务

15+阅读 · 2020年12月29日

【AAAI2021】记忆门控循环网络

【AAAI2021】记忆门控循环网络

专知会员服务

50+阅读 · 2020年12月28日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2020】CompFeat:用于视频实例分割的综合特征聚合

专知会员服务

9+阅读 · 2020年12月10日

【ECCV2020诺亚】利用循环卷积网络与分频段处理的视频超分辨算法

【ECCV2020诺亚】利用循环卷积网络与分频段处理的视频超分辨算法

专知会员服务

12+阅读 · 2020年9月2日

【CVPR2020-Facebook AI】扩展架构的高效视频识别，X3D: Expanding Architectures

【CVPR2020-Facebook AI】扩展架构的高效视频识别，X3D: Expanding Architectures

专知会员服务

22+阅读 · 2020年4月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《为多域数字战场变革装甲力量》报告

《多域训练：利用开放标准将太空与网络域同陆、海、空域训练相整合》报告

面向城市战：欧美徒步作战新装备

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

相关资讯

OpenPose 升级，CMU提出首个单网络全人体姿态估计网络，速度大幅提高

OpenPose 升级，CMU提出首个单网络全人体姿态估计网络，速度大幅提高

极市平台

7+阅读 · 2019年10月6日

【泡泡点云时空】LaserNet：一种用于自动驾驶的高效三维目标概率检测器

【泡泡点云时空】LaserNet：一种用于自动驾驶的高效三维目标概率检测器

泡泡机器人SLAM

5+阅读 · 2019年5月12日

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

机器之心

3+阅读 · 2019年1月28日

何恺明等最新突破：视频识别快慢结合，取得人体动作AVA数据集最佳水平

何恺明等最新突破：视频识别快慢结合，取得人体动作AVA数据集最佳水平

极市平台

6+阅读 · 2018年12月24日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

Facebook AI实验室何恺明等人提出视频识别SlowFast网络

Facebook AI实验室何恺明等人提出视频识别SlowFast网络

专知

3+阅读 · 2018年12月12日

Fully-Convolutional Siamese Networks for Object Tracking论文笔记

Fully-Convolutional Siamese Networks for Object Tracking论文笔记

统计学习与视觉计算组

10+阅读 · 2018年10月12日

【泡泡点云时空】RSNet：用于3D点云分割的递归切片网络（CVPR2018-14)

【泡泡点云时空】RSNet：用于3D点云分割的递归切片网络（CVPR2018-14)

泡泡机器人SLAM

12+阅读 · 2018年9月18日

【泡泡一分钟】一种用于在线视频理解的高效卷积网络

【泡泡一分钟】一种用于在线视频理解的高效卷积网络

泡泡机器人SLAM

5+阅读 · 2018年5月31日

ETP：精确时序动作定位

ETP：精确时序动作定位

极市平台

13+阅读 · 2018年5月25日

相关论文

ViViT: A Video Vision Transformer

Arxiv

0+阅读 · 2021年3月29日

Objectness-Aware Few-Shot Semantic Segmentation

Arxiv

0+阅读 · 2021年3月25日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

4+阅读 · 2019年4月18日

Joint Face Detection and Facial Motion Retargeting for Multiple Faces

Joint Face Detection and Facial Motion Retargeting for Multiple Faces

Arxiv

4+阅读 · 2019年2月27日

Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding

Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding

Arxiv

7+阅读 · 2019年2月26日

Stacked Spatio-Temporal Graph Convolutional Networks for Action Segmentation

Stacked Spatio-Temporal Graph Convolutional Networks for Action Segmentation

Arxiv

5+阅读 · 2018年12月6日

Video Object Detection with an Aligned Spatial-Temporal Memory

Video Object Detection with an Aligned Spatial-Temporal Memory

Arxiv

4+阅读 · 2018年7月27日

Fine-grained Activity Recognition in Baseball Videos

Arxiv

6+阅读 · 2018年4月9日

微信扫码咨询专知VIP会员