Reducing redundancy is crucial for improving the efficiency of video recognition models. An effective approach is to select informative content from the holistic video, yielding a popular family of dynamic video recognition methods. However, existing dynamic methods focus on either temporal or spatial selection independently while neglecting a reality that the redundancies are usually spatial and temporal, simultaneously. Moreover, their selected content is usually cropped with fixed shapes, while the realistic distribution of informative content can be much more diverse. With these two insights, this paper proposes to integrate temporal and spatial selection into an Action Keypoint Network (AK-Net). From different frames and positions, AK-Net selects some informative points scattered in arbitrary-shaped regions as a set of action keypoints and then transforms the video recognition into point cloud classification. AK-Net has two steps, i.e., the keypoint selection and the point cloud classification. First, it inputs the video into a baseline network and outputs a feature map from an intermediate layer. We view each pixel on this feature map as a spatial-temporal point and select some informative keypoints using self-attention. Second, AK-Net devises a ranking criterion to arrange the keypoints into an ordered 1D sequence. Consequentially, AK-Net brings two-fold benefits for efficiency: The keypoint selection step collects informative content within arbitrary shapes and increases the efficiency for modeling spatial-temporal dependencies, while the point cloud classification step further reduces the computational cost by compacting the convolutional kernels. Experimental results show that AK-Net can consistently improve the efficiency and performance of baseline methods on several video recognition benchmarks.
翻译:减少冗余对于提高视频识别模型的效率至关重要。 有效的办法是从整体视频中选择信息内容, 产生一个流行的动态视频识别方法组合。 但是, 现有的动态方法侧重于时间或空间选择, 独立地选择时间或空间, 同时忽略了冗余通常是空间和时间的现实情况。 此外, 它们所选内容通常以固定形状裁剪, 而信息内容的切合实际分布可以更加多样化。 有了这两个洞察力, 本文建议将时间和空间选择纳入一个行动关键点网络( AK- Net ) 。 从不同的框架和位置中, AK- Net 选择一些分散于任意形状区域的信息点作为一套行动关键点, 然后将视频识别转换为点云云分类。 AK- Net 有两个步骤, 即关键点选择和点云值分类, 将视频输入一个中间层的基线网络和输出图。 我们把这个特征图上的每个像素作为空间时空点, 并选择一些信息性关键点, 使用自留状态。 第二, AK- Net 选择一些任意形状的偏差点, 将视频识别精度的精度计算, 将精度计算精度的精度的精度 将精度 将精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 度 度 精度 度 度 度 度 度 度 精度 度 度 度 度 度 度 度 度 度 度 度 度 度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 精度 度 精度 精度 精度 精度 精度 精度 精度 精度 精度 度 度