无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

会员服务 ·

无需卷积，完全基于Transformer的首个视频理解架构TimeSformer出炉

2021 年 3 月 16 日 机器之心

选自Facebook AI

机器之心编译

编辑：小舟、陈萍

Facebook AI 提出新型视频理解架构：完全基于Transformer，无需卷积，训练速度快、计算成本低。

TimeSformer 是首个完全基于 Transformer 的视频架构 。近年来，Transformer 已成为自然语言处理（NLP）领域中许多应用的主导方法，包括机器翻译、通用语言理解等。

TimeSformer 在一些具有挑战性的动作识别基准（包括 Kinetics-400 动作识别数据集）上实现了最佳的性能。此外，与 3D 卷积神经网络（CNN）相比，TimeSformer 的训练速度大约快了 3 倍，而推断所需的计算量不足其十分之一。

论文链接：https://arxiv.org/pdf/2102.05095.pdf

此外，TimeSformer 的可扩展性使得在更长的视频片段上训练更大的模型成为可能。这为 AI 系统理解视频中更复杂的人类行为打开了大门，对需要理解人类复杂行为的 AI 应用来说是极为有益的。

在 Kinetics-400(左) 和 Kinetics-600(右) 两个动作识别基准上，TimeSformer 与当前具有 SOTA 性能的 3D 卷积神经网络的视频分类准确率比较结果。TimeSformer 在这两个数据集上都达到了最优的准确率。

TimeSformer：全新的视频理解架构

传统的视频分类模型利用了 3D 卷积滤波器。然而这样的滤波器在捕获局部时空区域内的短程模式方面是有效的，但是它们不能对超出其接受域的时空依赖关系进行建模。

TimeSformer 仅建立在 Transformer 模型中使用的自注意力机制上，这使得捕获整个视频的时空依赖关系成为可能。为了将 Transformer 应用到视频中，该模型将输入视频解释为从每个帧中提取的图像 patch 的时间 - 空间序列。

这种格式类似于 NLP 中使用的格式，在 NLP 中，Transformer 将句子视为从每个单词中计算出的特征向量序列。正如 NLP Transformer 通过将每个单词与句子中的其他单词进行比较来推断其含义一样，该模型通过显式地将每个 patch 与视频中的其他 patch 进行比较来捕获每个 patch 的含义。这也是所谓的自注意力机制，这使得捕获相邻 patch 之间的短程依赖性以及远距离 patch 之间的远程关联成为可能。

传统的 3D 卷积神经网络计算成本比较高昂，因为它们需要在视频中所有的空间 - 时间位置上使用大量的滤波器。而 TimeSformer 具有较低的计算成本，因为它：（1）将视频分解成一组不重叠的 patch；（2）采用自注意力，避免对所有 patch 对进行详尽的比较。研究者将此方案称为分割空间 - 时间注意力，其思想是依次应用时间注意力和空间注意力。

当使用时间注意力时，每个 patch（例如在下图中，蓝色的正方形）只与其他帧中相同空间位置的 patch（绿色正方形）进行比较。如果视频包含 T 帧，则每个 patch 只进行 T 次时间上的比较。当使用空间注意力时，每个 patch 仅与同一帧内的 patch（红色 patch）进行比较。

因此，如果 N 是每帧中的 patch 数，则分割空间 - 时间注意力只对每个 patch 执行一共（T+N）次比较，而不是联合空间 - 时间注意力的方法所需的（T×N）次比较。此外，该研究发现与联合空间 - 时间注意力相比，分割空间 - 时间注意力不仅更有效，而且更准确。

TimeSformer 的可扩展性让它能够在极长的片段（例如，102 秒时长的 96 帧序列）上运行，以执行超长程时间建模，这明显不同于当前的 3D CNN。后者仅限于处理至多几秒钟的片段。而识别长时间活动是一种重要需求。

例如，假设有一个制作法式吐司的视频。一次分析几秒钟的 AI 模型可能会识别出一些原子动作（例如打鸡蛋或将牛奶倒入碗中）。但对每个单独动作进行分类，对于分类复杂活动是远远不够的。TimeSformer 则可以在更长的时间范围内分析视频，从而揭示出原子动作之间明确的依赖关系（例如将牛奶和已经打好的鸡蛋混合）。