ICCV2019 | 针对不规则场景文字识别的对称约束矫正网络

2019 年 10 月 22 日 CVer



一、研究背景

场景文字识别是计算机视觉领域一项基础技术,用于将场景中的文本数字化,在自动驾驶、智慧物流、图像搜索、智慧城市等诸多领域有重要的应用价值。场景文本经常遇到弯曲问题,这给识别带来了难度。

近些年来,有许多用于识别弯曲文本的工作,如AON[2]提取多方向序列特征;ASTER[3]先将弯曲文本进行矫正后进行识别。ASTER所使用的矫正网络依赖于弱监督学习学出的控制点,理想状态下,控制点可以平滑地分布于文本区域上下边缘。然而因缺乏先验约束,在面对高度弯曲的文本时,基于弱监督的网络很难准确预测出控制点。

为了解决这种情况,本文作者提出了一种对称约束矫正网络(ScRN[1],该网络用文本中心线和一些几何属性进行约束,可以产生更加准确的控制点,进而提高对弯曲文本的识别精度。

 

Fig.1. Comparison between ASTER and ScRN(proposed in this paper),shown in (a) and (b) respectively.


一、方法概述

Fig.2. Pipeline of the proposed method.


网络主要由三个部分组成:主干网络、矫正网络(ScRN)、识别网络,整个网络可以端对端训练。主干网络采用了基于ResNet-50FPN,生成共享特征图。矫正网络接收共享特征图为输入,输出像素级别文本几何属性预测,并利用TPS[4]对共享特征图进行矫正。最后,识别网络对矫正后的特征图进行进一步特征提取和识别。

 
二、矫正模块的设计
1. 文本几何属性定义

Fig.3. Illustration of the text representation.

 

一段文本可以看作一串有顺序的字符序列:,m为字符数,每一个字符有一个四边形边框。因此,可以构建一个中心点序列:,其中中心点,分别是的左、右边缘中心点。按序列顺序连接,将得到文本中心线(TCL)。

每一个文本中心点有一组几何属性为尺度(字符高度一半),为字符朝向(上边缘到下边缘中心点连线的方向),为文本走向(的切线方向)。对于TCL上非C中的点,其几何属性值由相邻两个C中点属性插值得到。

 
2. 几何属性定义预测  

矫正模块用一个轻量的两层卷积预测器预测文本属性,该预测器输出为。其中表示该像素位于TCL上的概率,为文本尺度,用于预测的正弦余弦值:

之后,TCL得分图、可用于提取中心点序列C,详细过程见文献[5]

 
3.     弯曲文本的矫正
Fig.4. The rectification process. Note that,for all figures in this paper,we use the input image to illustrate these points and rectified results, but the rectification is actually operated on the shared feature maps.


ScRN利用TPS进行特征图层面矫正。计算基准点的具体步骤为:

(1)等间距从C中采样出 个点,记为
(2)对每一个 ,按 距离沿文本朝向取两个点,其坐标计算如下:

得到基准点后即可计算TPS变换矩阵,进而进行双线性插值采样,得到纠正后特征图。需要注意的是:(a)尽管TPS允许变长输入,但为了Batch-wise训练,基准点数目预先设定并固定。(b)计算基准点时采用字符朝向而非文本朝向,因为字符朝向更加准确(如下图)。

Fig.5. Control points and rectification results using the character orientation(Left) and normal direction of text orientation(Right).


三、识别模块

识别模块先用一个浅层CNN对纠正后的特征图进行进一步下采样,之后用基于Attention的Decoder进行解码。识别损失函数为:


四、模型训练
模型训练损失函数由两部分组成:

其中,第一部分 是几何属性预测损失,组成如下:

其中 为交叉熵损失,其余几个为 SmoothedL1 损失:

训练中,均为1

模型训练分两步进行:第一步中,共享特征图使用Groundtruth的几何属性标注进行矫正,没有几何属性标注的数据则不矫正直接进行识别。第二步中,用预测出的几何属性进行矫正,所有数据均矫正后再识别。

 
五、实验结果
1. 对比其他矫正网络

作者对比了ScRN和基于STN的矫正网络,该对比设置如下:

  • Baseline:同样Backbone,无文本矫正器。
  • STN_baseline:用STN代替提出的矫正器。
  • STN_supervision:在STN_baseline基础上,加入了额外监督。
  • ScRN*:在原图而非特征图上进行纠正,因此需要两个不共享参数的Backbone Network
TABLE 1 Recognition accuracy of different variants.


从实验结果可以看出,引入矫正器的方法在不规则数据集(IC15SVTPCUTE)上好于Baseline,而ScRN又好于STN。原图级别矫正效果最好,但需要更多的计算量和空间消耗。

 
2. 效果增益是否来自矫正

作者同样分析了ScRN相对Baseline的效果增益来自额外的监督还是矫正。Multi-loss指加入监督而不进行矫正。从实验结果可以看出矫正模块有效性。

TABLE 2 Recognition accuracy to explore the effect of rectification module.All models are trained on SynthText only.


3. 与其他方法对比
 TABLE 3 Results across a number of methods and datasets. "50","1k","Full" are lexicons."0" means no lexicon.


与其他SOTA方法对比,ScRN在不规则文本数据集上ScRN取得了最好的效果,在规则数据集上取得了最好或相当的效果。下面是文章中给出的一些可视化结果。

 

Fig.6. Selected results from SVTP and CUTE80,which suffer from severe distortion. For every three rows,the first row shows the input image with evenly sampled center points (visualized as red points) and green control points. The second row shows the rectified images. The last row is the recognition results.


4. 本文方法的局限性


Fig.7. Some bad cases produced by our recognition system. The meanings of these elements are the same as Fig.6. Incorrectly recognized characters are in red.


作者发现,在末端字符几乎水平且接近图片边缘时,矫正性能会受到影响。高度模糊样本同样会对识别产生影响。

 
参考文献
[1] M.K.Yang, et al., Symmetry-constrained Rectification Network for Scene TextRecognition, ICCV 2019.
[2] Z.Cheng et al. Aon: Towards arbitrarily-oriented text recognition. CVPR 2018.
[3] B.G.Shi et al. Aster: an attentional scene text recognizer with flexible rectification. TPAMI 2018.
[4] F.L. Bookstein. Principal warps: Thin-plate splines and the decomposition ofdeformations. TPAMI 1989.
[5] S.Longet al. TextSnake: A flexible representation for detecting text of arbitrary shapes. ECCV 2018.



原文作者:Mingkun Yang, Yushuo Guan, Minghui Liao, XinHe,KaiguiBian, Song Bai, Cong Yao and Xiang Bai

撰稿:王天玮         编排: 高  学

审校:殷  飞  发布:金连文

重磅!CVer-场景文本识别交流群已成立


扫码添加CVer助手,可申请加入CVer-目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪&去雾&去雨等群。一定要备注:研究方向+地点+学校/公司+昵称(如场景文本识别+上海+上交+卡卡)

▲长按加群


▲长按关注我们

麻烦给我一个在看!

登录查看更多
6

相关内容

最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
84+阅读 · 2020年4月23日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
32+阅读 · 2020年1月10日
近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码
专知会员服务
32+阅读 · 2020年1月10日
【泡泡点云时空】基于分割方法的物体六维姿态估计
泡泡机器人SLAM
18+阅读 · 2019年9月15日
【泡泡一分钟】基于几何约束的单目视觉里程计尺度恢复
CVPR 2019 | CSP行人检测:无锚点框的检测新思路
机器之心
3+阅读 · 2019年4月13日
CVPR 2018 |“寻找”极小人脸
极市平台
14+阅读 · 2018年7月11日
行人对齐+重识别网络(论文解读)
极市平台
7+阅读 · 2017年10月11日
Arxiv
13+阅读 · 2020年4月12日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
Top
微信扫码咨询专知VIP会员