加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
场景文字识别是计算机视觉领域一项基础技术,用于将场景中的文本数字化,在自动驾驶、智慧物流、图像搜索、智慧城市等诸多领域有重要的应用价值。场景文本经常遇到弯曲问题,这给识别带来了难度。
近些年来,有许多用于识别弯曲文本的工作,如AON[2]提取多方向序列特征;ASTER[3]先将弯曲文本进行矫正后进行识别。ASTER所使用的矫正网络依赖于弱监督学习学出的控制点,理想状态下,控制点可以平滑地分布于文本区域上下边缘。然而因缺乏先验约束,在面对高度弯曲的文本时,基于弱监督的网络很难准确预测出控制点。
为了解决这种情况,本文作者提出了一种对称约束矫正网络(ScRN)[1],该网络用文本中心线和一些几何属性进行约束,可以产生更加准确的控制点,进而提高对弯曲文本的识别精度。
Fig.1. Comparison between ASTER and ScRN(proposed in this paper),shown in (a) and (b) respectively.
网络主要由三个部分组成:主干网络、矫正网络(ScRN)、识别网络,整个网络可以端对端训练。主干网络采用了基于ResNet-50的FPN,生成共享特征图。矫正网络接收共享特征图为输入,输出像素级别文本几何属性预测,并利用TPS[4]对共享特征图进行矫正。最后,识别网络对矫正后的特征图进行进一步特征提取和识别。
Fig.3. Illustration of the text representation.
一段文本可以看作一串有顺序的字符序列:,m为字符数,每一个字符有一个四边形边框。因此,可以构建一个中心点序列:,其中是中心点,和分别是的左、右边缘中心点。按序列顺序连接,将得到文本中心线(TCL)。
每一个文本中心点有一组几何属性为尺度(字符高度一半),为字符朝向(上边缘到下边缘中心点连线的方向),为文本走向(到的切线方向)。对于TCL上非C中的点,其几何属性值由相邻两个C中点属性插值得到。
矫正模块用一个轻量的两层卷积预测器预测文本属性,该预测器输出为:。其中表示该像素位于TCL上的概率,为文本尺度,用于预测和的正弦余弦值:
之后,TCL得分图、和可用于提取中心点序列C,详细过程见文献[5]。
ScRN利用TPS进行特征图层面矫正。计算基准点的具体步骤为:
得到基准点后即可计算TPS变换矩阵,进而进行双线性插值采样,得到纠正后特征图。需要注意的是:(a)尽管TPS允许变长输入,但为了Batch-wise训练,基准点数目预先设定并固定。(b)计算基准点时采用字符朝向而非文本朝向,因为字符朝向更加准确(如下图)。
Fig.5. Control points and rectification results using the character orientation(Left) and normal direction of text orientation(Right).
识别模块先用一个浅层CNN对纠正后的特征图进行进一步下采样,之后用基于Attention的Decoder进行解码。识别损失函数为:
训练中,均为1。
模型训练分两步进行:第一步中,共享特征图使用Groundtruth的几何属性标注进行矫正,没有几何属性标注的数据则不矫正直接进行识别。第二步中,用预测出的几何属性进行矫正,所有数据均矫正后再识别。
作者对比了ScRN和基于STN的矫正网络,该对比设置如下:
从实验结果可以看出,引入矫正器的方法在不规则数据集(IC15、SVTP、CUTE)上好于Baseline,而ScRN又好于STN。原图级别矫正效果最好,但需要更多的计算量和空间消耗。
作者同样分析了ScRN相对Baseline的效果增益来自额外的监督还是矫正。Multi-loss指加入监督而不进行矫正。从实验结果可以看出矫正模块有效性。
与其他SOTA方法对比,ScRN在不规则文本数据集上ScRN取得了最好的效果,在规则数据集上取得了最好或相当的效果。下面是文章中给出的一些可视化结果。
Fig.6. Selected results from SVTP and CUTE80,which suffer from severe distortion. For every three rows,the first row shows the input image with evenly sampled center points (visualized as red points) and green control points. The second row shows the rectified images. The last row is the recognition results.
Fig.7. Some bad cases produced by our recognition system. The meanings of these elements are the same as Fig.6. Incorrectly recognized characters are in red.
作者发现,在末端字符几乎水平且接近图片边缘时,矫正性能会受到影响。高度模糊样本同样会对识别产生影响。
-End-
*延伸阅读
CV细分方向交流群
添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群(已经添加小助手的好友直接私信),更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流,一起来让思想之光照的更远吧~
△长按添加极市小助手
△长按关注极市平台
觉得有用麻烦给个在看啦~