加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
作者:Naiyan Wang
链接: https://zhuanlan.zhihu.com/p/98508347 本文来自知乎专栏,仅供学习参考使用,著作权归作者所有。如有侵权,请私信删除。
最近arxiv上各种检测与分割的paper并不少,看多了倒是有一些审美疲劳。今天快速介绍一篇我觉得从处理的问题上比较新颖,解决方法上比较干净的一个工作。看到各大公众号都快速跟进了这文章,本不想再凑这个热闹,但仔细一看除了鸡肋的机翻并没讲到一些有意思的东西,所以还是从我个人的角度来写写这个文章。
文章要解决的问题是在实例分割任务中边缘不够精细的问题。以MaskRCNN举例,由于计算量和显存的原因,对于每一个ROIAlign之后的proposal我们一般只会upsample到28*28的分辨率输出mask。这对于绝大多数物体显然是不够的。如果想得到像素级别的精度,我们不得不付出更大的计算和存储代价。那有什么办法可以在低代价下仍然得到精细的分割结果呢?其实很重要的一点是往往这些不准确的部分是在物体的边缘,这些边缘其实只占了整个物体中非常小的一部分。所以基于这样的一个想法,作者提出可以每次在预测出来的mask中只选择Top N最不确定的位置进行细分预测。
每个细分点的特征可以通过Bilinear插值得到,每个位置上的classifier通过一个简单的MLP来实现。这其实是等价于用一个1*1的conv来预测,但是对于中心很确定的点并不计算。整体的示意图如下:
在训练中还有一个很重要的问题就是怎样采点训练这个fine grained的MLP,作者也尝试了各种办法,结果发现还是平衡explore和exploit两者的mildly biased方法能取得最好的效果。
在各种定量的评测中,PointRend均能提升1~2点的mask AP,而且展现出越强的backbone,越好的标注提升越高的特点。
实际视觉结果上,更是赏心悦目。同样的想法也可以用到语义分割任务中去,同样也可以取得提升。仅放题图一例,有兴趣的读者可以参见原文有更多清晰大图。
简单总结来说,PointRend从我的角度理解,我认为和Rendering并没什么联系,这个名字其实甚至是有些confuse的。本质上而言,就是在coarse to fine refinement的过程中加入了cascade hard example mining。整个文章还是很有Kaiming和Ross的风格,论想法而言可能不是会让人眼前一亮,但方法简洁而有效,而且细节做到了极致。如果有对分割精度有比较高要求的同学可以来尝试下。
-End-
红包口令【3】
↓↓↓
PS:新年假期,极市将为大家分享计算机视觉顶会 ICCV 2019 大会现场报告系列视频,欢迎前往B站【极市平台】观看,春节也学习,极市不断更,快来打卡点赞吧~
https://www.bilibili.com/video/av83388862
CV细分方向交流群
添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群(已经添加小助手的好友直接私信),更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流,一起来让思想之光照的更远吧~
△长按添加极市小助手
△长按关注极市平台
觉得有用麻烦给个在看啦~