SegLink++:基于实例感知与组件组合的任意形状密集场景文本检测方法

2019 年 12 月 25 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

本文授权转载自:CSIG文档图像分析与识别专委会



     本文简要介绍Pattern Recognition 2019论文“SegLink++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping”的主要工作。 该论文提出一种对文字实例敏感的自下而上的文字检测方法,解决了自然场景中密集文本和不规则文本的检测问题。 该论文提出的Instance-aware Component Grouping(ICG)方法,能够在自下而上的文字检测方法的基础上大大提高密集文本检测的效果。 在该论文提出的一个商品密集文本检测数据集DAST1500上,该方法的结果明显优于同时期的其他文字检测方法。
 

Fig.1. Comparison of different scene text detectors on one proposed DAST1500 image. (a)SegLink; (b) CTD+TLOC; (c) PixelLink; (d)Proposed ICG.

一、研究背景  

近年来场景文字检测工作主要分为两大类:自上而下的方法和自下而上的方法。自上而下的方法主要借鉴的是通用物体检测的思路,并且根据文字的特点设计相应的检测模型。这类方法通常难以处理不规则文本的检测问题。自下而上的方法,通常先学习文本行的基本组成单元,然后进行单元之间的组合得到文本行检测框。由于其灵活的表征方式,对不规则形状的文本检测有着天然的优势。自下而上的方法按照组成单元的不同又分为两类:组成单元为像素的基于分割的方法,以及组成单元为文字块的基于单元组合的方法。但是,自下而上的方法通常很难区分密集文本。密集文本检测问题是文本检测中一个广泛存在的难点问题。


二、原理简述


Fig.2. Pipeline of the proposed method.
 

现有的自下而上的文字检测方法存在两个问题:一是难以区分密集文本,二是自下而上的方法通常需要一定的后处理进行单元组合,而这个后处理过程一般不能和网络一起进行端到端的训练。为了解决这些问题,该论文首先提出了一种文本块单元之间的吸引关系和排斥关系的表征,然后设计了一种最小生成树算法进行单元组合得到最终的文本检测框。另外,该论文还设计了Instance-aware Loss损失函数,把文本行实例的信息引入到文本块单元的训练过程,实现了后处理过程和网络端到端的训练。

具体的方法细节如图2所示。对于一张待检测的图片,先用VGG16网络进行特征提取,然后在不同层得到网络输出,其中有文字块单元的分类得分和文字块单元检测框的回归值,包括中心偏移量,宽和高以及旋转角度。另外,网络在不同层还会学习相邻文字块单元之间的吸引和排斥的强弱程度。对应到图2中,蓝色框表示文字块单元,绿色线段表示文字块单元之间的吸引关系,红色线段表示文字块单元之间的排斥关系,为了表示的方便,只画了其中两行文字中的文字块单元以及单元关系。

在后处理阶段,首先利用阈值得到有效的文字块单元。这些单元以及之间的连接关系可以构成一个图的表征G=(V,E)。其中的节点V代表多尺度的图像金字塔中的文字块单元,边E代表在同一层以及跨层的文字块单元之间的连接关系。其中每个边对应这两个吸引和排斥权重值:

然后设计了一种最小生成树算法进行文字块单元组合,算法伪代码如图3所示。具体的算法流程是,按照吸引关系和排斥关系的强弱值从大到小考察每个关系。如果是吸引关系,则其连接的两个文字单元属于同一个文字单元组;如果是排斥关系,则其连接的两个文字单元之间有一个排斥的约束。遍历所有有效的文字块单元关系,可以得到组合好的文字块单元组,对应图2中,不同的文字块单元组用不同的颜色表示。最后,利用每组文字块单元,可以提取出对应的文字区域的外接检测框。


Fig.3. Modified MST for text component grouping.
 

本文的损失函数分为两部分,。一部分是文字块单元分类和回归的损失函数,另一部分是单元关系的损失函数。这两个函数都有一个实例相关的权重,该权重衡量的是对应标注框与最优检测框的匹配程度,用每个标注框与检测框最大的的倒数表示,整个过程对应图2的绿色虚线框,论文中称之为Instance-aware Loss。这样可以把后处理过程引入到网络的训练过程中,自适应调节每个文字区域中的文字单元和单元关系的损失函数权重,从而进一步提升文字检测效果。

 
三、主要实验结果及可视化效果
       为了验证方法在不规则密集文本上的检测效果,本文公开了一个商品密集行数据集DAST1500,包括1036张训练图片和500张测试图片,利用ICDAR2015的IoU0.5的方法进行评测。



 

  Fig. 4. Some qualitative results on DAST1500, ICDAR15 and CTW1500.

从Table 1来看,文中的方法在商品密集行数据集DAST1500上取得了优异的性能,大幅领先同时期的其他方法。从方法自身的对比来看,在Baseline基础上引入文字块单元间吸引和排斥的关系表征以及Instance-aware Loss都能有效提升密集文本检测效果。

对于Table 2,文中的方法在ICDAR15多方向文本检测数据集上取得较好的结果,而且检测效率也不错。另外对于Table 5,在CTW1500曲形文本检测数据集上,本文的方法也取得很好的结果,优于同时期的其他方法。

图4展示了一些可视化的结果图。可以看到,该方法能处理任意形状的文本,在商品密集文本上也能取得很好的检测效果。

 
四、总结及讨论

本文提出了一种Instance-aware Component Grouping(ICG)的自下而上的文字检测方法,实验证明该方法在检测不规则密集文本上的有效性和优越性。ICG中文字块单元之间吸引和排斥关系的表征,以及对文字行实例敏感的Instance-aware Loss,都能够显著改善自下而上的文字检测方法的检测效果。

 
五、相关资源
  • 论文链接:https://doi.org/10.1016/j.patcog.2019.06.020

  • 下载链接:http://www.vlrlab.net/papers/xu/icg.pdf

  • DAST1500数据集链接:https://tianchi.aliyun.com/dataset/dataDetail?dataId=12084



原文作者:Jun Tang, Zhibo Yang, Yongpan Wang, Qi Zheng, Yongchao Xu, Xiang Bai

撰稿:汤 俊   编排: 高 学

审校:殷 飞   发布:金连文

免责声明: 1 )本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。( 2 )本文观点不代表本公众号立场。  

CVer-场景文本检测交流群


扫码添加CVer助手,可申请加入CVer-场景文本检测群。一定要备注:目标检测+地点+学校/公司+昵称。同时也开源申请其他CV细分方向群。细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索等群。


一定要备注:研究方向+地点+学校/公司+昵称(场景文本检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲长按加群


▲长按关注我们

麻烦给我一个在看

登录查看更多
0

相关内容

基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
专知会员服务
73+阅读 · 2020年5月21日
基于小样本学习的图像分类技术综述
专知会员服务
148+阅读 · 2020年5月6日
3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
专知会员服务
160+阅读 · 2020年4月21日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
自然场景文本检测技术综述(CTPN, SegLink, EAST)
极市平台
12+阅读 · 2019年7月30日
基于深度学习的视频目标检测综述
极市平台
15+阅读 · 2019年7月19日
自然场景下的文字检测:从多方向迈向任意形状
人工智能前沿讲习班
8+阅读 · 2019年6月7日
ECCV 2018 | Bi-box行人检测:‘行人遮挡’为几何?
极市平台
13+阅读 · 2018年9月30日
白翔:复杂开放场景中的文本理解
深度学习大讲堂
12+阅读 · 2018年6月5日
用于RGB-D室内场景语义分割的门式融合局部感知反卷积网络
机器学习研究会
7+阅读 · 2017年10月30日
TensorMask: A Foundation for Dense Object Segmentation
Arxiv
10+阅读 · 2019年3月28日
Arxiv
3+阅读 · 2018年5月20日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
7+阅读 · 2018年1月21日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关VIP内容
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
专知会员服务
73+阅读 · 2020年5月21日
基于小样本学习的图像分类技术综述
专知会员服务
148+阅读 · 2020年5月6日
3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
专知会员服务
160+阅读 · 2020年4月21日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员