本文提出了一类高效的视频网络——X3D,它在空间、时间、宽度和深度等多个网络轴上逐步扩展了一个微小的二维图像分类体系结构。受机器学习中特征选择方法的启发,提出了一种简单的分步网络扩展方法,该方法在每一步中扩展一条轴,从而达到了较好的精度和复杂度平衡。为了将X3D扩展到特定的目标复杂性,我们执行前向扩展和后向收缩。X3D实现了最先进的性能,同时需要4.8倍和5.5倍的更少的乘法和参数,以达到与以前的工作类似的精度。我们最令人惊讶的发现是,具有高时空分辨率的网络可以表现得很好,而在网络宽度和参数方面则非常轻。在视频分类和检测基准上,我们报告了具有竞争力的准确性和前所未有的效率。

成为VIP会员查看完整内容
21

相关内容

【CVPR2020】视觉推理-可微自适应计算时间
专知会员服务
12+阅读 · 2020年4月28日
【ICLR2020-Facebook AI】张量分解的时序知识图谱补全
专知会员服务
58+阅读 · 2020年4月14日
【CVPR2020】L2 ^GCN:图卷积网络的分层学习高效训练
专知会员服务
37+阅读 · 2020年3月31日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
专知会员服务
25+阅读 · 2020年2月15日
【泡泡点云时空】PointConv: 3D点云的深度卷积网络
泡泡机器人SLAM
23+阅读 · 2019年6月12日
谷歌 MorphNet:让你的神经网络更小但更快
机器学习算法与Python学习
5+阅读 · 2019年4月18日
解读谷歌NASNet:一个大规模图像识别架构!(附论文)
全球人工智能
9+阅读 · 2018年1月20日
TResNet: High Performance GPU-Dedicated Architecture
Arxiv
8+阅读 · 2020年3月30日
q-Space Novelty Detection with Variational Autoencoders
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
8+阅读 · 2018年4月12日
VIP会员
相关主题
微信扫码咨询专知VIP会员