从Grid R-CNN到Grid R-CNN Plus：基于网格的目标检测演化

2019 年 8 月 3 日 PaperWeekly

作者丨孙明珊

学校丨哈尔滨工业大学（深圳）硕士生

研究方向丨目标检测

研究动机

Grid R-CNN 是一种将传统两阶段检测算法中对于矩形框坐标回归转换成由 FCN 构建物体网格点的方法，由于同一水平线上网格点的互相纠正作用以及相邻网格点空间信息的融合，其探测结果质量高。然而，其速度并不理想，因此 plus 版本在该基础上作了速度和精度提升。

在 Grid R-CNN 中对于一个物体来说，它所有的网格点共享一个相同的特征表达区域，并且此区域过于冗余。为此，Grid R-CNN Plus 将网格分支的输入尺度从原来的 56x56 降低为 28x28，对于每个网格点，新的输出代表了原来大概四分之一的区域，该方法较 Grid R-CNN 不仅提升了速度还提升了精度，除此之外，还从网格分支网络的结构减重、RoI 采样策略以及 NMS 等方面下手来提升模型速度。

研究方法

Grid R-CNN回顾

Grid R-CNN 这篇论文由商汤提出，主要对 Faster R-CNN 框架中定位框回归支路的更改，将以往通过回归方式实现 proposal 位置修正的方法，改为通过全卷积网络来实现目标定位框的精确修正。

如上图 (b) 的 3x3 个点，网格点的位置由像素级确定。因此，较之前的回归算法，网络就可以获得更多监督信息。但是由于点位置的预测和局部特征没有直接的关系，比如矩形框左上角的点和其相邻的背景区域点拥有类似的特征，也就是超出物体的角点像素的局部特征相似性。

针对上述问题，采用了多点监督的方式，通过在一个网格中定义目标点，可以获得更多信息来减少一些由于单点监督导致的不准确性。比如左上角的点可以由上边界中点和左边界中点进行校准。

除此之外，为了充分利用网格点的信息，提出了一种信息融合的策略。具体来说，对一个网格点来说，其多个相邻点的特征会被融合成一个特征图，这个融合后的特征图用于相应网格点的预测，使网格点的位置更加精准。

最后，为了弥补真实网格点超出 proposal 范围的问题，将 proposal 区域扩大以包含绝大多数网格点，扩大的计算公式由下图左边方式转换成右边方式：

总而言之，Grid R-CNN 的三个创新点：

多点监督策略
网格点特征融合策略
增大区域映射

网格点特定表示区域

对于 Grid RCNN Plus 来说，对速度提升效果最明显的就是网格点的特征表达区域，只有正样本（IOU>0.5）才会被送入 Grid branch，因此有些真实标签会被限制在监督图的一个小区域内。如下图所示：

在一个 3x3 的 grid point中，真实标签只会出现在监督热图的左上方区域，但这样是不对的，对于一个物体来说，它的所有的 grid points 共享一个相同的特征表达区域。

为了解决这个特征表达区域的问题，首先，将 grid branch 的输入尺度从原来的 56x56 降低为 28x28，对于每个 grid point，新的输出代表了原来大概四分之一的区域。经过这样处理后，每个 grid point 的表达可以近似的视为一个归一化的过程。

轻量网格分支

由于最后的输出尺度降低一半，那我们可以同时将 grid branch 中的其他特征图分辨率也降低，比如 14x14 到 7x7。细节来说，通过前面的 RPN+ROI Align 产生一个固定的 feature map 14x14，接着使用一个步长为 2 的 3x3 卷积核，然后再使用 7 个步长为 1 的 3x3 卷积核从而产生 7x7 分辨率的特征图。紧接着我们将这个特征分成 N 组（默认为 9 ），每一组关联一个 grid point，接着使用两个组反卷积将特征图尺度变为 28x28，注意 group deconvolution 可以加速上采样的过程。

另外一个好处是，由于我们对每个 grid point 的表达进行了归一化，因此他们变得更加 closer, 导致在特征融合时不需要使用很多的卷积层来覆盖这个间隙。在 Plus 版本，只使用了一个 5x5 depth-wise 卷积层来代替原来的 3 个连续的卷积层。

跨图片采样策略

由于 grid branch 在训练时只使用正样本，所以不同采样 batch 正样本数量也会不同，这种差异性会对精度产生影响，比如，有些图像的正样本很多，但有些图像的正样本数很少。

在 Plus 版本，作者使用了跨图片的采样策略，具体讲，从两个图片中一共采集 192 个 positive proposal，而不再是每张图片采集 96 个 positive proposal。这样就会使训练更具有鲁棒性。

一次性 NMS

原来的 Grid RCNN 需要两次 NMS，第一次是 proposal 的生成，只选择前 125 个样本进行边框矫正，第二次是做最后的分类，尽管只是一小部分的 proposal，进行 80 类的 NMS 还是很慢，所以在 Plus 版本，直接移除了第二个 NMS，同时将第一个 NMS 的 IOU 阈值设置为 0.3，分类阈值设置为 0.03，只选择前 100 个 proposal 进行进一步的分类和回归。

实验结果

与 Faster R-CNN, Grid R-CNN 在 COCO 数据集上的结果如上表所示，可见精度和速度都有提升，可见这些策略是有效果的。

总结

原版的 Grid R-CNN 对 Faster RCNN 做了很多精度上的优化，但是速度却慢于 Faster R-CNN，于是 Grid R-CNN Plus 就速度优化在四个方面进行了改进：

网格点特定表示区域
轻量网格分支
跨图片采样策略
一次性 NMS

点击以下标题查看更多往期内容：

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文 & 源码

登录查看更多

相关内容

R-CNN

关注 0

R-CNN的全称是Region-CNN，它可以说是是第一个成功将深度学习应用到目标检测上的算法。传统的目标检测方法大多以图像识别为基础。一般可以在图片上使用穷举法选出所所有物体可能出现的区域框，对这些区域框提取特征并使用图像识别方法分类，得到所有分类成功的区域后,通过非极大值抑制(Non-maximumsuppression)输出结果。

【KDD2020】自适应多通道图卷积神经网络

专知会员服务

121+阅读 · 2020年7月9日

深度学习目标检测方法及其主流框架综述

专知会员服务

148+阅读 · 2020年6月26日

【文献综述】深度学习目标检测方法及其主流框架综述

专知会员服务

119+阅读 · 2020年6月26日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

45+阅读 · 2020年4月17日