ICCV 2019 | 针对不规则场景文字识别的对称约束矫正网络

2019 年 10 月 31 日 极市平台

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~




研究背景


场景文字识别是计算机视觉领域一项基础技术,用于将场景中的文本数字化,在自动驾驶、智慧物流、图像搜索、智慧城市等诸多领域有重要的应用价值。场景文本经常遇到弯曲问题,这给识别带来了难度。


近些年来,有许多用于识别弯曲文本的工作,如AON[2]提取多方向序列特征;ASTER[3]先将弯曲文本进行矫正后进行识别。ASTER所使用的矫正网络依赖于弱监督学习学出的控制点,理想状态下,控制点可以平滑地分布于文本区域上下边缘。然而因缺乏先验约束,在面对高度弯曲的文本时,基于弱监督的网络很难准确预测出控制点。


为了解决这种情况,本文作者提出了一种对称约束矫正网络(ScRN)[1],该网络用文本中心线和一些几何属性进行约束,可以产生更加准确的控制点,进而提高对弯曲文本的识别精度。


Fig.1. Comparison between ASTER and ScRN(proposed in this paper),shown in (a) and (b) respectively.



方法描述



Fig.2. Pipeline of the proposed method.


网络主要由三个部分组成:主干网络、矫正网络(ScRN)、识别网络,整个网络可以端对端训练。主干网络采用了基于ResNet-50的FPN,生成共享特征图。矫正网络接收共享特征图为输入,输出像素级别文本几何属性预测,并利用TPS[4]对共享特征图进行矫正。最后,识别网络对矫正后的特征图进行进一步特征提取和识别。



矫正模块的设计


1. 文本几何属性定义


Fig.3. Illustration of the text representation.


一段文本可以看作一串有顺序的字符序列:,m为字符数,每一个字符有一个四边形边框。因此,可以构建一个中心点序列:,其中中心点,分别是的左、右边缘中心点。按序列顺序连接,将得到文本中心线(TCL)。


每一个文本中心点有一组几何属性为尺度(字符高度一半),为字符朝向(上边缘到下边缘中心点连线的方向),为文本走向(的切线方向)。对于TCL上非C中的点,其几何属性值由相邻两个C中点属性插值得到。


2. 几何属性定义预测 


矫正模块用一个轻量的两层卷积预测器预测文本属性,该预测器输出为:。其中表示该像素位于TCL上的概率,为文本尺度,用于预测和的正弦余弦值:



之后,TCL得分图、可用于提取中心点序列C,详细过程见文献[5]。


3.     弯曲文本的矫正

Fig.4. The rectification process. Note that,for all figures in this paper,we use the input image to illustrate these points and rectified results, but the rectification is actually operated on the shared feature maps.



ScRN利用TPS进行特征图层面矫正。计算基准点的具体步骤为:


(1)等间距从C中采样出 个点,记为
(2)对每一个 ,按 距离沿文本朝向取两个点,其坐标计算如下:



得到基准点后即可计算TPS变换矩阵,进而进行双线性插值采样,得到纠正后特征图。需要注意的是:(a)尽管TPS允许变长输入,但为了Batch-wise训练,基准点数目预先设定并固定。(b)计算基准点时采用字符朝向而非文本朝向,因为字符朝向更加准确(如下图)。


Fig.5. Control points and rectification results using the character orientation(Left) and normal direction of text orientation(Right).



识别模块


识别模块先用一个浅层CNN对纠正后的特征图进行进一步下采样,之后用基于Attention的Decoder进行解码。识别损失函数为:




模型训练


模型训练损失函数由两部分组成:



其中,第一部分 是几何属性预测损失,组成如下:



其中 为交叉熵损失,其余几个为SmoothedL1损失:



训练中,均为1。


模型训练分两步进行:第一步中,共享特征图使用Groundtruth的几何属性标注进行矫正,没有几何属性标注的数据则不矫正直接进行识别。第二步中,用预测出的几何属性进行矫正,所有数据均矫正后再识别。



实验结果


1. 对比其他矫正网络


作者对比了ScRN和基于STN的矫正网络,该对比设置如下:


  • Baseline:同样Backbone,无文本矫正器。
  • STN_baseline:用STN代替提出的矫正器。
  • STN_supervision:在STN_baseline基础上,加入了额外监督。
  • ScRN*:在原图而非特征图上进行纠正,因此需要两个不共享参数的Backbone Network。


TABLE 1 Recognition accuracy of different variants.



从实验结果可以看出,引入矫正器的方法在不规则数据集(IC15、SVTP、CUTE)上好于Baseline,而ScRN又好于STN。原图级别矫正效果最好,但需要更多的计算量和空间消耗。


2. 效果增益是否来自矫正


作者同样分析了ScRN相对Baseline的效果增益来自额外的监督还是矫正。Multi-loss指加入监督而不进行矫正。从实验结果可以看出矫正模块有效性。


TABLE 2 Recognition accuracy to explore the effect of rectification module.All models are trained on SynthText only.



3. 与其他方法对比

 TABLE 3 Results across a number of methods and datasets. "50","1k","Full" are lexicons."0" means no lexicon.



与其他SOTA方法对比,ScRN在不规则文本数据集上ScRN取得了最好的效果,在规则数据集上取得了最好或相当的效果。下面是文章中给出的一些可视化结果。


Fig.6. Selected results from SVTP and CUTE80,which suffer from severe distortion. For every three rows,the first row shows the input image with evenly sampled center points (visualized as red points) and green control points. The second row shows the rectified images. The last row is the recognition results.


4. 本文方法的局限性


Fig.7. Some bad cases produced by our recognition system. The meanings of these elements are the same as Fig.6. Incorrectly recognized characters are in red.


作者发现,在末端字符几乎水平且接近图片边缘时,矫正性能会受到影响。高度模糊样本同样会对识别产生影响。



参考文献


[1] M.K.Yang, et al., Symmetry-constrained Rectification Network for Scene TextRecognition, ICCV 2019.
[2] Z.Cheng et al. Aon: Towards arbitrarily-oriented text recognition. CVPR 2018.
[3] B.G.Shi et al. Aster: an attentional scene text recognizer with flexible rectification. TPAMI 2018.
[4] F.L. Bookstein. Principal warps: Thin-plate splines and the decomposition ofdeformations. TPAMI 1989.
[5] S.Longet al. TextSnake: A flexible representation for detecting text of arbitrary shapes. ECCV 2018.



-End-


*延伸阅读





CV细分方向交流群


添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群(已经添加小助手的好友直接私信),更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流一起来让思想之光照的更远吧~



△长按添加极市小助手


△长按关注极市平台


觉得有用麻烦给个在看啦~  

登录查看更多
0

相关内容

最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
自然场景下的文字检测:从多方向迈向任意形状
人工智能前沿讲习班
8+阅读 · 2019年6月7日
CVPR2019 | 文本检测算法综述
极市平台
34+阅读 · 2019年5月30日
SkeletonNet:完整的人体三维位姿重建方法
极市平台
11+阅读 · 2019年1月11日
ECCV 2018 | Bi-box行人检测:‘行人遮挡’为几何?
极市平台
13+阅读 · 2018年9月30日
Arxiv
4+阅读 · 2019年12月2日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
15+阅读 · 2019年6月25日
Arxiv
4+阅读 · 2018年3月14日
VIP会员
相关VIP内容
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
Top
微信扫码咨询专知VIP会员