本文提出了一类高效的视频网络——X3D,它在空间、时间、宽度和深度等多个网络轴上逐步扩展了一个微小的二维图像分类体系结构。受机器学习中特征选择方法的启发,提出了一种简单的分步网络扩展方法,该方法在每一步中扩展一条轴,从而达到了较好的精度和复杂度平衡。为了将X3D扩展到特定的目标复杂性,我们执行前向扩展和后向收缩。X3D实现了最先进的性能,同时需要4.8倍和5.5倍的更少的乘法和参数,以达到与以前的工作类似的精度。我们最令人惊讶的发现是,具有高时空分辨率的网络可以表现得很好,而在网络宽度和参数方面则非常轻。在视频分类和检测基准上,我们报告了具有竞争力的准确性和前所未有的效率。