【泡泡一分钟】深度直接回归方法在多角度场景文本检测的应用(ICCV2017-72)

2018 年 8 月 27 日 泡泡机器人SLAM

每天一分钟,带你读遍机器人顶级会议文章

标题:Deep Direct Regression for Multi-Oriented Scene Text Detection

作者:Wenhao He, Xu-Yao Zhang, Fei Yin, Cheng-Lin Liu

来源:International Conference on Computer Vision (ICCV 2017)

播音员:糯米

编译:刘梦雅 周平(78)

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权


摘要

在本文中,我们首先提供一种新的视角,将现有的高性能目标检测方法分类为直接法和间接回归法,直接回归通过预测给定点的偏移量来执行边界回归,而间接回归则通过框定区域块来预测偏移量。

        

在面向多角度的场景文本检测的背景下,我们分析了间接回归的缺点,其中包括以最先进的检测结构Faster-RCNN 和SSD作为实例,并指出直接回归的潜在优势。为了验证这一观点,我们提出了一种基于深度直接回归的多角度场景文本检测方法。我们的检测框架只使用了一个全卷积网络以及一步后处理,简单有效。框架如下图:


全卷积网络以端到端的方式进行了优化,并且具有双任务输出,其中一个是文本与非文本之间的像素级分类,另一个则是利用直接回归来确定文本的四边形边界的顶点坐标。全卷积网络结构如下:


        本文所提出的方法在定位非主要的场景文本非常有效。以ICDAR2015场景文本数据集基准进行测试,我们的方法实现了81%的F值。可以看出,这是一种新的先进技术,并且明显优于以往的方法。下图是本文在ICDAR2015数据集上的测试结果:

Abstract    

In this paper, we first provide a new perspective to divide existing high performance object detection methodsinto direct and indirect regressions. Direct regression per-forms boundary regression by predicting the offsets froma given point, while indirect regression predicts the offsetsfrom some bounding box proposals. In the context of multi-oriented scene text detection, we analyze the drawbacks ofindirect regression, which covers the state-of-the-art detection structures Faster-RCNN and SSD as instances, andpoint out the potential superiority of direct regression. Toverify this point of view, we propose a deep direct regression based method for multi-oriented scene text detection.Our detection framework is simple and effective with a fullyconvolutional network and one-step post processing. Thefully convolutional network is optimized in an end-to-endway and has bi-task outputs where one is pixel-wise clas-sification between text and non-text, and the other is directregression to determine the vertex coordinates of quadri-lateral text boundaries. The proposed method is particularly beneficial to localize incidental scene texts. On theICDAR2015 Incidental Scene Text benchmark, our method achieves the F-measure of 81%, which is a new state-of-the-art and significantly outperforms previous  approaches.On other standard datasets with focused scene texts, ourmethod also reaches the state-of-the-art performance.



如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号(paopaorobot_slam)

欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!

泡泡网站:www.paopaorobot.org

泡泡论坛:http://paopaorobot.org/forums/


泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

商业合作及转载请联系liufuqiang_robot@hotmail.com

登录查看更多
2

相关内容

【ICML2020】对比多视角表示学习
专知会员服务
53+阅读 · 2020年6月28日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
119+阅读 · 2020年6月26日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
80+阅读 · 2020年6月11日
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
70+阅读 · 2020年6月10日
基于深度学习的表面缺陷检测方法综述
专知会员服务
86+阅读 · 2020年5月31日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
44+阅读 · 2020年4月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【泡泡一分钟】无监督学习的立体匹配方法(ICCV-2017)
泡泡机器人SLAM
8+阅读 · 2018年10月9日
【泡泡一分钟】用于深度双目的非监督适应方法(ICCV-2017)
泡泡机器人SLAM
10+阅读 · 2018年10月7日
【泡泡一分钟】学习多视图相似度(ICCV-2017)
泡泡机器人SLAM
10+阅读 · 2018年10月7日
【泡泡一分钟】多尺度优化的CNN目标检测算法(ICCV2017-55)
泡泡机器人SLAM
8+阅读 · 2018年7月20日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
DPOD: Dense 6D Pose Object Detector in RGB images
Arxiv
5+阅读 · 2019年2月28日
Arxiv
6+阅读 · 2018年2月8日
VIP会员
相关VIP内容
【ICML2020】对比多视角表示学习
专知会员服务
53+阅读 · 2020年6月28日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
119+阅读 · 2020年6月26日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
80+阅读 · 2020年6月11日
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
70+阅读 · 2020年6月10日
基于深度学习的表面缺陷检测方法综述
专知会员服务
86+阅读 · 2020年5月31日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
44+阅读 · 2020年4月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员