ICCV 2019 | 港大提出视频显著物体检测算法MGA，大幅提升分割精度

2019 年 11 月 10 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

作者：李灏峰

来源：我爱计算机视觉@微信公众号

本文解读了香港大学联合中山大学和深睿医疗人工智能实验室 ICCV2019 论文《Motion Guided Attention for Video Salient Object Detection》。

该文提出了基于运动注意力的视频显著物体检测方法（MGA），比之前最好的算法在DAVIS和FBMS数据集上分别提升了4个和8个百分点！

研究背景

显著物体检测问题要求对于每张图片或视频帧，预测一个二类别的像素级分割结果，用以表征图片中的显著或前景物体。

该问题常作为计算机视觉与图形学应用的预处理步骤。

随着深度学习技术的发展，面向图片的显著物体检测方法被广泛研究，而面向视频的显著物体检测有待进一步探索。

为了解决视频的显著物体检测，该论文作者有以下观察：

其一，视频物体的显著性由其外观和运动共同决定，显著物体的运动往往也是显著的，显著运动的区域很可能是显著物体；

其二，物体的运动蕴含空间连贯性信息，运动状态相似的相邻区域很可能同属于一个物体或者背景；

其三，利用运动信息的空间连贯性，有助于分离物体和背景。背景外观可包含纹理不同的多个区域，而物体可包含内部边缘及不同外观的部件，这造成了分割的困难。而表征运动的光流图片相对“干净”（如图1b），可更好地捕捉部分物体边界，成为分割显著物体的契机。

目前现有方法主要通过循环神经网络聚合多个视频帧的卷积特征，或者利用光流和变形来对齐不同帧的特征，而没有通过端到端学习来捕捉和利用光流中的显著运动。

作者提出一系列运动注意力模块，来建模显著运动如何结合外观信息来影响物体显著性。作者还提出了一个双分支网络，用以放置上述注意力模块，来实现视频显著物体检测。

图1

运动引导的注意力机制

为了建模显著运动如何结合外观信息来影响物体显著性的，作者将外观信息抽象为三维的外观特征张量（可为某个ReLU隐层的输出），将显著运动抽象为二维的运动显著图（如某个sigmoid隐层的输出）或者三维的运动特征张量。

首先考虑最简单的情况，如何用一张二维的运动显著图来“关注”三维外观特征的重要位置。

一个直观的朴素模型是将运动显著图与外观特征逐位相乘，来加强外观特征中运动显著的区域的响应。但这个朴素模型的缺点在于，运动显著图中的零元素会“抑制”外观特征中运动不显著或者静止的区域，从而导致物体分割不完整的情况出现。

为了解决朴素模型的缺点，作者提出模型一：采用残差结构，将被加权后的外观特征与最初的外观特征逐位相加，补充回错误抑制的外观信息，使后续的神经网络层有机会勾勒出完整物体。

下面考虑如何利用三维运动特征来关注外观特征。一个简单方案是模仿模型一，与外观特征逐位相乘相加，区别在于要先采用一个1x1卷积来对齐运动特征和外观特征的形状，这样得到模型二。

模型二可以看作是用一个三维权重同时实现空间和通道注意力的机制。但由于运动特征来源于信息量较“稀疏”的光流图片，缺乏纹理信息和复杂语义，基于这样的特征对外观特征进行通道注意力，可能引入额外噪声或导致过拟合。

一个备选方案是运动特征仅用于空间注意力，即先用一个1x1卷积和sigmoid从运动特征预测出运动显著图，在进行类似模型一的操作，这样得到模型三。

图2

最后，基于模型二和三，考虑如何实现合理的通道注意力，作者提出了模型四。

模型四先用运动特征对外观特征进行空间注意力，“空间注意”后的外观特征经由全局平均池化得到一个一维向量，该向量可表征显著运动区域的外观特征。

由于物体的运动和静止部分有较一致的外观属性（如色彩、纹理、语义），那么基于上述运动区域的外观特征向量预测出的一维的通道注意力权重，可有效提高物体静止部分相应属性或通道的响应，从而有助于分割出完整物体。

模型四的末端保留残差结构，以避免零元素“抑制”的问题。

运动引导注意力网络（MGAnet）

图3

接下来，作者提出一个运动引导注意力网络（MGAnet），一方面用来提取前述外观特征、运动特征以及运动显著图，另一方面用来结合前面提出的一系列运动注意力模块，从而形成完整的视频显著物体检测方法。

MGAnet是一个基于DeepLab-V3+的双分支网络。目前不少视频分割方法也采取双分支结构，但主要在各分支末端进行融合，而MGAnet采用多层次的、密集的方式连接两个分支。

MGAnet包含一个以RGB图像为输入的外观分支，一个以光流可视化图片为输入的运动分支，以及连接两分支的6个注意力模块MGA-{0-5}。外观分支的编码器可为ResNet-101或ResNet-50，运动分支的编码器可为ResNet-34或ResNet-18，不同组合均可达到SOTA的性能。

MGA-{0-5}可看作部署注意力模块的“槽”，其中MGA-5仅可采用模型一（运动信息是二维显著图），MGA-0至MGA-4可采取模型二三四中的某一种，一般采用同一种。

实验结果

下文报告几个主要的实验。第一个实验将MGA与现有的视频及图片的显著物体检测方法在三个数据集DAVIS、FBMS和ViSal上比较。

其中，ViSal中并没有划分出训练集供模型训练，能较好地反映模型的泛化能力。

与6个视频模型和11个图片模型相比，MGA在三个数据集上均表现最优，分别获得4个、8个、1个百分点的MaxF的领先。

表1

第二个实验验证网络结构的有效性。作者尝试单独地训练、测试单个分支，其中独立的外观分支等价于语义分割中的SOTA模型DeepLab-V3+；

作者还尝试仅保留编码器部分（MGA-E）或者解码器部分（MGA-D）的注意力模块。实验结果显示，双分支结构有效利用了运动信息，优于任一单分支网络。

注意力模块部署在编码器端或解码器端，均能起到效果，同时部署在编码器和解码器端可获得最佳性能。

第三个实验验证四个运动注意力模块的有效性。三种朴素的特征融合方法，包括逐位相乘、逐位相加和沿通道拼接（concatenate），被作为基线方法。

表3中，“E-”表示部署在编码器端，“D-”表示部署在解码器端。实验结果显示，四种注意力模块均优于基线方法。

其中，较复杂的模型四（MGA-tmc）略优于模型二（MGA-t）和模型三（MGA-tm）。

表2

表3

总的来说，作者利用运动的空间连贯性，采用注意力机制来建模运动对物体显著性的影响，提出了一个简单但准确率高的双分支网络。

与基于循环神经网络的方法不同，该方法利用一个极小时间窗内的时序上下文（即与相邻帧的光流），取得了SOTA的性能。

本文是对原文主要方法和实验的解读，更多细节请参见原文。

论文地址：

https://arxiv.org/pdf/1909.07061.pdf

代码地址：

https://github.com/lhaof/Motion-Guided-Attention

-End-

*延伸阅读

Res2Net：新的深度学习多尺度结构，提升物体检测立竿见影

图像分割交流群

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可进群。（已经添加小助手的好友直接私信）

△长按添加极市小助手

其他方向如目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM等，也可扫码添加极市小助手拉你进群，更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~

△长按关注极市平台

觉得有用麻烦给个在看啦~

登录查看更多

相关内容

MGA

关注 0

【CVPR2020】通过获取高质量的关键点对来提升目标检测性能

专知会员服务

44+阅读 · 2020年6月30日

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

59+阅读 · 2020年6月24日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

专知会员服务

24+阅读 · 2020年4月22日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【CVPR2020-百度】用于视觉识别的门控信道变换

专知会员服务

13+阅读 · 2020年3月30日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

ICCV 2019 | 精确的端到端的弱监督目标检测网络

AI科技评论

11+阅读 · 2019年12月9日

ICCV 2019 | 北邮提出高阶注意力模型，大幅改进行人重识别SOTA精度

极市平台

67+阅读 · 2019年8月31日

CVPR 2019 | 旷视研究院提出一种行人重识别监督之下的纹理生成网络

极市平台

5+阅读 · 2019年7月3日

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

极市平台

19+阅读 · 2019年4月18日

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

极市平台

7+阅读 · 2018年9月19日

视觉物体跟踪新进展：让跟踪器读懂目标语义信息

微软研究院AI头条

7+阅读 · 2018年9月13日

【CVPR2018】物体检测中的结构推理网络

深度学习大讲堂

6+阅读 · 2018年7月30日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

CVPR 2018 | 华中科技大学提出多向文本检测方法：基于角定位与区域分割

机器之心

5+阅读 · 2018年3月1日

【ICCV 目标跟踪性能最优】首个应用残差学习的深度目标跟踪算法

新智元

35+阅读 · 2017年9月10日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

Augmentation for small object detection

Arxiv

13+阅读 · 2019年2月19日

Monocular Total Capture: Posing Face, Body, and Hands in the Wild

Arxiv

4+阅读 · 2018年12月4日

Convolutional CRFs for Semantic Segmentation

Arxiv

8+阅读 · 2018年5月15日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

Mobile Video Object Detection with Temporally-Aware Feature Maps

Arxiv

11+阅读 · 2018年3月28日

An application of cascaded 3D fully convolutional networks for medical image segmentation

Arxiv

10+阅读 · 2018年3月20日

Mask R-CNN

Arxiv

7+阅读 · 2018年1月24日

2D-3D Pose Consistency-based Conditional Random Fields for 3D Human Pose Estimation

Arxiv

3+阅读 · 2017年12月28日

Fast YOLO: A Fast You Only Look Once System for Real-time Embedded Object Detection in Video

Arxiv

5+阅读 · 2017年9月18日

VIP会员

ICCV 2019 | 港大提出视频显著物体检测算法MGA，大幅提升分割精度

研究背景

运动引导的注意力机制

运动引导注意力网络（MGAnet）

实验结果

活动 | 加入极市原创作者行列，实现一个小目标

相关内容