CMU与FAIR联合发布非局部神经网络，有效提升视频分类、对象分割、姿态估计结果

2017 年 11 月 24 日 机器学习研究会

原文来源：arxiv

作者：Xiaolong Wang、Ross Girshick、Abhinav Gupta1、Kaiming He

「雷克世界」编译：嗯~阿童木呀

通常来说，卷积和循环操作都是能够一次性处理一个局部邻域的构建快。在本文中，我们提出将非局部操作作为捕获长距离依赖（long-distance dependencies）的通用系列构建块。受计算机视觉中的经典非局部均值方法的启发，我们的非局部操作计算一个位置的响应以此作为全部位置处特征的加权和。这个构建模块可以插入到许多计算机视觉体系结构中。在视频分类的任务上，即使没有任何附加修饰，我们的非局部模型也可以在Kinetics和Charades数据集上比肩甚至超过当前的竞赛获胜者。在静态图像识别中，我们的非局部模型改进了目标检测/分割任务中的性能表现，并可以对COCO系列任务进行姿态估计。

在深度网络中，捕获长距离依赖具有至关重要的作用。对于序列数据（例如存在于语音、语言中的）来说，循环操作是长距离依赖建模的主要解决方案。而对于图像数据来说，长距离依赖是由形成于卷积操作的深度栈中的大型感受野（receptive fields）进行建模的。

无论是在空间还是在时间中，卷积和循环操作都是处理局部邻域的，因此只有在重复应用这些操作，并通过数据不断地传播信号时才能够捕获长距离依赖。一般说来，重复局部操作会存在一些局限性。首先，计算效率低下；其次，将导致产生需要仔细解决应对的优化困难；最后，这些挑战使得产生多跳依赖建模，例如，当消息需要在远距离位置之间来回传送时，这将是一个困难重重的问题。

在本文中，我们将非局部操作作为一个高效、简单、通用的组件，用于捕获深度神经网络的长距离依赖。我们提出的非局部操作是计算机视觉中经典的非局部均值操作的泛化。直观地说，非局部操作计算一个位置上的响应，以此作为输入特征映射中所有位置上的特征的加权和（如图1所示）。这些位置可以是在空间、时间或时空中，而这意味着我们的操作可以适用于图像、序列和视频问题。

在我们的网络中，一个时空非局部操作被训练用以进行视频分类。位置xi的响应由所有位置xj的特征的加权平均值进行计算（这里仅显示的是最高的加权值）。在这个由我们的模型进行计算的示例中，注意它是如何将第一个坐标系中的球与后两个坐标系中的球联系起来的。

使用非局部操作具有几个优势：（a）相较于循环和卷积操作的渐进行为，非局部操作直接通过计算任意两个位置之间的交互捕获长距离依赖，而不管它们的位置距离如何；（b）正如我们在实验中所展示的那样，非局部操作较为高效，即使只有很少几层也能达到最好的效果；（c）最后，我们的非局部操作保持变量输入的大小，并且可以很容易地与其他操作（例如，我们将要使用的卷积）相结合。

转自：雷克世界

完整内容请点击“阅读原文”

登录查看更多