【泡泡一分钟】多尺度优化的CNN目标检测算法(ICCV2017-55)

会员服务 ·

【泡泡一分钟】多尺度优化的CNN目标检测算法(ICCV2017-55)

2018 年 7 月 20 日 泡泡机器人SLAM

每天一分钟，带你读遍机器人顶级会议文章

标题：Recurrent Scale Approximation for Object Detection in CNN

作者：Yu Liu, Hongyang Li, Junjie Yan, Fangyin Wei, Xiaogang Wang, Xiaoou Tang

来源：ICCV 2017 ( IEEE International Conference on Computer Vision )

播音员：朱英

编译：颜青松(60)

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

CNN神经网络天生就不太适用于处理大尺度变化的数据。这意味着在需要处理尺度变化的目标检测中需要在每个尺度上计算特征图，无疑增加了计算量，是当前目标检测实用的一个瓶颈。

针对此问题，本文提出一个常见尺度估计模型RSA来一次性计算特征图，并且用这些图来估计其他尺度上的特征图。RSA模型的核心在于递归展开机制，即利用比当前尺度大一倍的特征图来估计当前的特征图。

同时，为提高RSA的精度和效率，本文：(a)设计了一个尺度预测网络，从而只计算必要尺度的特征图；(b)提出了关键点回溯网络LRN，从而对特征图上预测的关键点进行可信度评价。LRN是一个非常有效的机制，能够极大的消除RSA产生的累计错误。

最后本文的模型也是一个端到端系统，能够在CNN框架下进行训练。实验证明本文的算法在人脸检测上已经能够达到最优效果，在一些一般的场景下也能达到不错的效果。当然最大的福利是本文的代码也是公开的，地址如下：github.com/sciencefans/RSA-for-object-detection。

图1是本文算法的基本流程，展示了本文是如何解决多尺度探测问题的思路。一方面预测需要探测的尺度，另一方面则利用已知的尺度特征图来估计未知的特征图。

图2是展示了LRN算法的作用，即评价不同尺度上的关键点的可信度。

Abstract

Since convolutional neural network (CNN) lacks an inherent mechanism to handle large scale variations, we always need to compute feature maps multiple times for multi scale object detection, which has the bottleneck of computational cost in practice. To address this, we devise a recurrent scale approximation (RSA) to compute feature map once only, and only through this map can we approximate the rest maps on other levels. At the core of RSA is the recursive rolling out mechanism: given an initial map on a particular scale, it generates the prediction on a smaller scale that is half the size of input.

To further increase efficiency and accuracy, we (a): design a scale-forecast network to globally predict potential scales in the image since there is no need to compute maps on all levels of the pyramid. (b): propose a landmark retracing network (LRN) to retrace back locations of the regressed landmarks and generate a confidence score for each landmark; LRN can effectively alleviate false positives due to the accumulated error in RSA. The whole system could be trained end-to-end in a unified CNN framework. Experiments demonstrate that our proposed algorithm is superior against state-of-the-arts on face detection benchmarks and achieves comparable results for generic proposal generation. The source code of our system is available.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号（paopaorobot_slam）。

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡网站：www.paopaorobot.org

泡泡论坛：http://paopaorobot.org/forums/

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成，希望大家珍惜我们的劳动成果，转载请务必注明出自【泡泡机器人SLAM】微信公众号，否则侵权必究！同时，我们也欢迎各位转载到自己的朋友圈，让更多的人能进入到SLAM这个领域中，让我们共同为推进中国的SLAM事业而努力！

商业合作及转载请联系liufuqiang_robot@hotmail.com

登录查看更多

相关内容

ICCV

关注 598

ICCV 的全称是 IEEE International Conference on Computer Vision，即国际计算机视觉大会，由IEEE主办，与计算机视觉模式识别会议（CVPR）和欧洲计算机视觉会议（ECCV）并称计算机视觉方向的三大顶级会议，被澳大利亚ICT学术会议排名和中国计算机学会等机构评为最高级别学术会议，在业内具有极高的评价。不同于在美国每年召开一次的CVPR和只在欧洲召开的ECCV，ICCV在世界范围内每两年召开一次。ICCV论文录用率非常低，是三大会议中公认级别最高的。ICCV会议时间通常在四到五天，相关领域的专家将会展示最新的研究成果。

【CVPR2020】通过获取高质量的关键点对来提升目标检测性能

专知会员服务

44+阅读 · 2020年6月30日

深度学习目标检测方法及其主流框架综述

专知会员服务

148+阅读 · 2020年6月26日

3D目标检测进展综述

专知会员服务

193+阅读 · 2020年4月24日

【西安交大】深度学习目标检测方法综述

专知会员服务

164+阅读 · 2020年4月21日