PRN：面向不规则文字识别的渐进矫正网络

2020 年 1 月 12 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文转载 自： CSIG文档图像分析与识别专委会

本文简要介绍SCIENCE CHINA Information Sciences 2020特刊Special Focus on Deep Learning for Computer Vision的论文“Progressive rectification network for irregular text recognition”的主要工作。该论文提出了一种渐进矫正的方式和包络改良的结构，主要解决了自然场景图像中不规则文字的识别问题。

一、研究背景

由于场景的多样性和拍摄视角的多变性，对于不规则文字（倾斜文字、弯曲文字、透视文字等）识别的需求日益增加。由于文字布局不可预测的变化，识别任意形状的文字是一个极具挑战性的任务。大部分现存的方法主要集中在规则文字识别上，鲁棒性不足，很难泛化到不规则文字识别的任务上。有一些工作采用基于矫正的思路，首先将不规则文字矫正到一个易于识别的前向水平视角，然后再进行识别。空间变换网络Spatial Transformer Network (STN) 是一个可以进行空间变换的可学习的模块。然而，用STN处理复杂的变形，尤其是非刚体的变形是非常困难的，通过一次简单的矫正很难达到理想的效果。单步矫正通常不能完全移除变形，不理想的矫正也可能会导致文字信息丢失，因而造成对后续识别的负面影响。在现实世界人类的认知过程中，困难的任务通常会被划分为多个简单的步骤，中间阶段性的结果可以被用来指导下一步操作过程。而且，人类通常采用多次不断地改良来更好的完成一个复杂任务。基于以上分析，我们设计了一个循环矫正网络来逐步地将不规则文字矫正到易于识别的前向水平视角，从而达到最优的识别效果。

二、原理简述

Fig.1. Pipeline of the proposed method.

图1展示了我们提出的渐进矫正网络的整体框架图。不规则文字首先被渐进式地校准到正向水平视角，然后送入后续的识别网络。在矫正过程中，通过多次迭代对矫正结果进行优化，变形会被逐步地移除。我们用同一个矫正网络循环地更新矫正结果，因此不会引入任何额外的参数。具体地，将变换参数估计模块记做E，空间变换模块记做S，我们的循环结构如下所示：

其中，t代表第t次迭代，是原始的输入图像。具体地，我们采用薄板样条插值（Thin Plate Spline, TPS）变换,这个变换形式可以建模非刚体的变换，更适用于排布形式多样的不规则文字。在第t次变换过程中，我们首先预测文字区域的包络，然后基于这个包络计算变换参数。文字包络是由文本行的边界点来定义的，可以灵活地反映文字的位置和姿态。我们在目标图像上定义一个规范的包络来描述期望的正向水平视角：

其中，N代表边界点的个数。在网络前传的过程中，定位网络预测一个输入图像上的文字包络，然后就可以根据B和计算出本次变换的变换参数：

其中，D是一个的N×N方阵，。给定一个随机点，可以通过线性映射得到其对应的点：

其中，是一个N维的行向量，。在空间变换模块中，通过对目标图像上的所有点进行映射可以得到输入图像上的网格，然后基于做双线性插值得到目标图像上的像素值。

Fig.2. The comparison of two iterative methods. The top and bottom rows are the direct iterations and envelope-refinement structures, respectively. (a) The original input images. The rectified images in the first iteration (b), in the second iteration (c), and in the last iteration (d). The direct iteration structure discards the information outside the rectified images and leads to boundary damage, while the envelope-refinement structure can recover the missing information and preserve the intact structure of characters.

然而，我们观察到直接迭代可能会导致不可逆转的信息损失。如图 2第一行所示，尽管下一步矫正将文字向更理想的方向进行变换，但是丢失的字符信息却无法被恢复，因而会引入边界损坏的现象，从而导致识别错误。并且在迭代矫正的过程中，丢失信息的影响会被累积。为了解决这个问题，我们设计了一个包络改良的结构来保持文字在迭代矫正过程中的完整性。我们通过文字包络来传递变换信息，文字包络会不断地进行更新，然后我们可以基于更新后的包络估计变换参数，并且每一步都在原始图像上进行采样。通过这种方式，原始的字符信息在每一步变换中都得以保留。另外，为了让网络训练的更加稳定和容易，我们选择优化包络的偏移量而不直接优化包络点的绝对位置。在第t次矫正，将包络的偏移量定义为

,原始图像和矫正图像上的包络记为

,然后按照如下的方式对包络进行更新:

其中，

是上一步输出的矫正图像，

是原始输入图像， L 是定位网络，

是预定义的初始包络，映射操作 M 和上文中的线性映射定义相同。当更新后的包络落到矫正图像外面的时候，映射回原图意味着补充一些损失的信息。基于原图上更新后的包络，可以计算出变换参数，然后在原始图像

上进行采样。因此，循环结构中的第二个公式可以重写为以下的形式：

通过包络改良结构，我们可以有效地保持文字的完整性，避免边界损坏的现象。矫正后的图像会送入后续的识别网络进行识别，具体地，识别网络采用一个基于注意力机制的编解码结构。首先，编码器采用一个 CNN-LSTM的结构对输入图像进行编码，得到特征序列

，然后解码器循环地生成字符序列

。第 i 步，解码器会自适应地对图像特征进行加权选择：

然后RNN会进行状态更新并产生标签空间上的概率分布：

其中，

都是可学习的参数。此外，这里我们采用双向解码器。给定输入图像I和真实标签

, 目标函数的形式如下：

其中，

和

分别是前向解码器和反向解码器输出的概率分布。矫正网络和识别网络是端到端的进行训练的，不需要任何额外的标注。

三、主要实验结果及可视化效果

针对上述设计，我们分别在四个不规则文字的数据库SVT-P、CUTE80、ICDAR15、Total-Text和四个规则文字的数据库SVT、IIIT5k、ICDAR03、ICDAR13上进行了验证。

Table 1. Lexicon-free results on several benchmarks with different number of iterations. ER represents the proposed envelope-refinement structure.

首先，我们探索了迭代次数对识别性能的影响，如表1所示，随着迭代次数的增加，识别性能会逐渐的改善，当迭代达到4次时，性能不再提升。平均每次迭代仅增加耗时4ms，且不增加任何额外的参数。考虑到性能和速度之间的折衷，我们选择三次迭代。

Tab le 2. Th e effect of the proposed envelope-refinement structure (ER).

另外，我们验证了包络改良结构的有效性，如表2所示，在同样的迭代次数下，该结构可以带来明显的性能提升。这受益于矫正过程中对文字完整性的保持，可以有效弥补一些损失信息。

Fig.3. Visualizations of the rectified images during progressive refinement.

一些可视化的例子如图3所示，可以看到，随着迭代次数的增加，不规则文字的变形可以被逐步地移除。另外，前一次矫正丢失的文字信息可以在后续的矫正过程中得到弥补，从而有效的保持文字的完整性，进而达到更好的识别效果。除此之外，我们还注意到，我们的网络不仅能够将不规则文字向利于识别的方向进行变换，同时还可以逐步地移去背景噪声。

Table 3. Sce ne text recognition acc uracies on irregular datasets.

Table 4 . Scene text recognition accuracies on regular datasets.

我们也与其他的方法进行了比较，如表3所示，我们的方法在大部分不规则文字的数据集上都取得了最好的性能，特别地，和基于矫正的方法相比，我们取得了更理想的性能，尤其是在变形严重的CUTE80上，这体现了我们方法的有效性。我们也在规则文字数据集上做了对比，如表4所示，我们在IIIT5k上达到了最好的性能。IIIT5k数据集也包含一些弯曲文字，这表明了我们的方法在处理不规则文字上的优势。

四、总结及讨论

本文提出了一种渐进矫正网络，用于解决不规则文字的识别问题。该方法在不规则文字的数据集上表现出了优越的效果。与之前基于矫正的方法相比，该方法对于文字形变更加鲁棒，可以有效移除形变程度较大的文字形变，进一步改善识别性能。

五、相关资源

论文地址： http://engine.scichina.com/publisher/scp/journal/SCIS/doi/10.1007/s11432-019-2710-7?slug=abstract

原文作者：Yunze Gao, Yingying Chen, Jinqiao Wang，Hanqing Lu

撰稿：高云泽编排：高学

审校：连宙辉发布：金连文

重磅！CVer-场景文本识别交流群已成立

扫码可添加CVer助手，可申请加入CVer大群和细分方向群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索等群。

一定要备注：研究方向+地点+学校/公司+昵称（如场景文本识别+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群