CVPR 2019开源论文 | BASNet：关注边界的显著性检测

2019 年 7 月 15 日 PaperWeekly

作者丨文永亮

学校丨哈尔滨工业大学（深圳）硕士生

研究方向丨目标检测、GAN

概要

这是一篇发表于 CVPR 2019 的关于显著性目标检测的 paper，BASNet：Boundary-Aware Salient Object Detection 显而易见就是关注边界的显著性检测，主要创新点在 loss 的设计上，使用了交叉熵、结构相似性损失、IoU 损失这三种的混合损失，使网络更关注于边界质量，而不是像以前那样只关注区域精度。在单个 GPU上能跑 25 fps，在六种公开数据集上能达到 state-of-the-art 的效果。作者也在 Github 上放出了源码：

https://github.com/NathanUA/BASNet

模型架构

▲ Figure 1. BASNet的网络结构

这个网络结构的特点：

采用深层编码器-解码器的结构得到一个粗糙的结果
采用 RRM（Residual Refinement Module）修正结果，使用了残差模块

▲ Figure 2. (a)红色：GT（Ground Truth，以下都简称GT）的概率图，(b)绿色：粗糙边界与GT不对齐，(c)蓝色：粗糙区域内部判定概率也低，(d)紫色：粗糙的预测通常都有这两个问题。

其中“粗糙“定义为两个方面：

如 Fig 2(b) 所示，粗糙表现在边界无法与 GT 对齐。
如 Fig 2(c) 所示，粗糙表现在不均匀的区域预测概率。

而经过前面步骤的得到的真正的粗糙结果通常都是带有以上两个问题。

loss上的设计

三种 loss 的叠加对应三个层次（这让我想起了之前的 Libra R-CNN 也是三个平衡对应三个层次）：

对应 pixel-level，对应 patch-level，对应 map-level。

就是最基本的最常用的二值交叉熵，其中 G(r,c)∈{0,1} 表示 (r, c) 像素点是否为 GT label，S(r,c) 表示预测出 (r, c) 像素点为显著物体的概率。从结构相似性指标引出结构相似性损失：

作为结构相似性理论的实现，结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的，反映场景中物体结构的属性，并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计，标准差作为对比度的估计，协方差作为结构相似程度的度量 [2]。

是结构相似性损失，SSIM 就是 structural similarity index 的意思，这是本文关注边界的重点部分，是为了评估图片质量的，捕捉结构化信息，是用于学习显著性目标与 GT 之间的结构化信息的。结构相似性损失的表达如上面的公式（3）所示。

简单的来说，就是要计算两张图的结构相似性，我们需要开一个局部窗口（N x N 大小的），计算窗口内的结构相似性损失，以像素为单位滑动，最后取所有窗口的结构相似性损失的平均。

具体计算方式就是令两张图片的对应像素点表示为 x 和 y，其中和，因为窗口大小为 N×N ，和分别是 x 和 y 的均值和方差，为 x 和 y 的协方差。和是为了避免分母为 0。

SSIM 损失作用于 patch-level 的，关键在于它着眼于边界，但是这个标准真的能着眼于边界吗？具体地讲，就是会对边界对不上的地方加大惩罚吗？作者用热力图（heatmap）可视化了整个训练过程损失的变化，用来阐述各种 loss 的作用。

▲ Figure 3. P_fg和P_bg是表示预测为前景或背景的概率

可以看到 Fig 3 的这三行热力图变化，颜色越红代表损失对待该像素点的权重越大，也就是越重视该点，越蓝表示权重对待越小。从第一行的 BCE 损失变化可以看出，BCE 损失是 pixel-wise 的，它是一个非常公平的损失函数，对待前景和背景一开始区别不大，训练过程中几乎达到了任何像素点都一视同仁。

而第二行关于结构相似性损失的变化，可以看到无论和怎么变化都是对显著物体边界赋予较高的权重。

第三个损失是 IoU损失，就是交叠率损失，数学表达式如下：

其中的 S(r,c),G(r,c) 都与表示的一致。文中也没有对其做过多的解释。

实验结果

对于 RRM 模块，作者在对比实验中用了下面三种，(c) 是文章所用的结构：

▲ Figure 4. (a) local boundary refinement module RRM_LC; (b) multi-scale refinement module RRM_MS; (c) our encoder-decoder refinement module RRM_Ours

对于不同的结构和不同的损失函数做了组合对比实验，得到下面的表格：

其中的如下：

是边界评价标准，可以参考文献 [3]。下面是各种 loss 的情况下，显著性检测的效果，在传统困难的多物体重合与背景差别不大的情况下，从效果图中能看到三种 loss 一起的效果跟有结构性损失的效果都表现的不错。

各种方法的对比下，在的标准下始终能够达到 state-of-the-art 的效果，但是对于这个评价标准，并不能在所有的数据集上做到最好，这也是因为这个方法着眼于解决边界质量。

总结

BASNet 该方法主要的亮点在于引入结构相似性损失，最后三种损失（BCE 损失，SSIM 损失，IoU 损失）相加，同时考虑，着眼于解决边界模糊问题，更注重边界质量，因为在结构相似性损失下，边界的损失会比显著性物体内部或其他地方赋予的权重更高。文章也尝试从三种层次上解答为什么设计三个损失，结构还算清晰。但是个人认为主要还是结构相似性损失的引入比较有价值。

参考文献

[1]. Xuebin Qin, Zichen Zhang, Chenyang Huang, Chao Gao, Masood Dehghan, Martin Jagersand. BASNet: Boundary-Aware Salient Object Detection. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 7479-7489.

[2]. Zhou Wang, Eero P Simoncelli, and Alan C Bovik. Multiscale structural similarity for image quality assessment. In The Thrity-Seventh Asilomar Conference on Signals, Systems & Computers, 2003, volume 2, pages 1398–1402. IEEE, 2003.

[3]. Marc Ehrig and J´erˆome Euzenat. Relaxed precision and recall for ontology matching. In Proc. K-Cap 2005 workshop on Integrating ontology, pages 25–32. No commercial editor., 2005.