利用边缘监督信息加速Mask R-CNN实例分割训练

2018 年 9 月 29 日 极市平台

极市平台是专业的视觉算法开发和分发平台,加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击文末“阅读原文”立刻申请入群~

来源:我爱计算机视觉

转载自:我爱计算机视觉,未经允许不得二次转载


今天跟大家分享一篇有意思的arXiv上新出的论文,作者来自德国宝马汽车公司(BMW Car IT GmbH,Germany)的两位实习生。



Mask R-CNN是实例分割的经典模型,作者通过在Mask R-CNN框架上附加一个新任务,达到更快的网络收敛速度。该文对MaskR-CNN添加了一个新的预测任务,称为Edge Agreement Head(也许可以翻译为“边缘协定预测端”?),它的灵感来自人工实例标注的方式。当人们对实例进行像素级标注的时候,仅仅会关注实例的边缘部分,而实例内部则只需要简单的复制边缘的标注信息就可以了。所以实例的mask边缘非常有用,它们很好地表征了实例。Edge Agreement Head的作用即鼓励深度网络训练时预测的实例mask边缘与groundtruth的边缘相似。


算法思想

作者通过观察Mask R-CNN训练前期输出的预测图像,发现很多时候边缘都不在点上,很显然,神经网络在走弯路。请看下面的例子:


这是Mask R-CNN深度网络训练前期的一些预测的Mask,发现它并没有像人类一样先把边缘找出来,甚至缺失的很离谱。为了避免神经网络走弯路,作者把实例的边缘信息作为一种监督的指引,即将groundtruth进行边缘滤波,让神经网络同时去预测实例的边缘。指了条明路。


Mask R-CNN的多任务损失函数:


具体的做法是,增加一个新分支,预测边缘并与groundtruth的边缘相比较,请看下图




作者仅是对每个实例28*28大小区域内(所以增加的计算量有限)进行上述操作,通过添加简单的3*3边缘检测计算预测和groundtruth的边缘,因为边缘检测往往和图像平滑一起用,所以右边的图增加了平滑的步骤。


上图中Lp代表计算两者差异的方式,如下:

p代表像素差值的幂次方参数。


作者尝试了普通的Sobel滤波和Laplacian滤波检测边缘。


作者通过Edge Agreement Head方式增加了一个损失函数,模型复杂度略微增加,没添加任何额外的需要训练的模型变量,训练的计算成本增加很小,而网络推断时不增加计算量。


实验结果

作者在MS COCO 2017数据集上做了实验,比较训练达到160k steps时基准模型和提出的模型的COCO AP metrics精度。




Table 1说明当训练达到160k steps时,使用Edge Agreement Head的模型训练达到了更高的精度,尤其是使用Soble边缘算子的模型。

Table 2表明不使用图像平滑加速更加明显,达到更高的精度。

预测结果比较图示:


Table 4表明,拉长训练时间,使用Edge Agreement Head仍然获得了更高的精度。

该文没有开源代码。


总结

这篇论文很简单,但给出的结论很有意思,Edge Agreement Head相当于提供了更多的监督信息,为深度网络指了一个方向,少走一些弯路。尤其在训练早期,网络更容易迷茫的时候就更需要指条明路。


尤其值得一提的是,很显然边缘信息可以有助于所有图像像素级理解的应用,比如深度估计、光流计算等,大家不妨一试。


论文地址:
https://arxiv.org/abs/1809.07069v1


-END-





每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击左下角“阅读原文”立刻申请入群~


登录查看更多
2

相关内容

【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
118+阅读 · 2020年6月26日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
46+阅读 · 2020年4月19日
专知会员服务
41+阅读 · 2020年2月20日
新时期我国信息技术产业的发展
专知会员服务
70+阅读 · 2020年1月18日
从FPN到Mask R-CNN,一文告诉你Facebook的计算机视觉有多强
人工智能头条
6+阅读 · 2018年3月20日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
TensorMask: A Foundation for Dense Object Segmentation
Arxiv
10+阅读 · 2019年3月28日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Arxiv
8+阅读 · 2018年11月21日
Auto-Context R-CNN
Arxiv
4+阅读 · 2018年7月8日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关论文
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
TensorMask: A Foundation for Dense Object Segmentation
Arxiv
10+阅读 · 2019年3月28日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Arxiv
8+阅读 · 2018年11月21日
Auto-Context R-CNN
Arxiv
4+阅读 · 2018年7月8日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员