ICCV2019 | 任意形状文本检测的像素聚合网络

2019 年 10 月 4 日 AI科技评论

作者 | 刘崇宇

编辑 | Camel

本文简要介绍了2019年7月被ICCV录用的论文“Efficient and AccurateArbitrary-Shaped Text Detection with Pixel Aggregation Network”的主要工作。该论文主要解决了自然场景文本检测中的两个问题：一是如何权衡在自然场景任意形状文本检测的速度与精度，二是不规则文本的精准检测。

本文转载自「CSIG文档图像分析与识别专委会」公众号。

一、研究背景

自然场景文本检测是计算机视觉领域一项基础而又有挑战性的任务，它在现实生活中也有着广泛的应用。

近年来随着深度学习的发展，自然场景文本检测也取得了突破性的进展。在任意四边形文本的检测上，目前的很多方法比如EAST是非常高效的。但是，自然场景中存在着大量的任意形状而且不规则的文本，尽管针对这些不规则文本也有很多检测方法能得到很好的结果，但其检测速度会由于模型过于庞大或者复杂的后处理变得很慢，这会限制这些方法在现实生活中的应用。

该论文针对任意形状文本检测考虑了如何权衡模型的速度和性能的问题，提出了相应的检测模型—--像素聚合网络PAN，它在大幅提高任意形状文本检测性能的同时也显著提高了计算速度。

二、PAN原理简述

Fig.1. The overall pipeline of PAN

Fig.1 是像素聚合网络PAN的流程图。PAN的主要流程可以分为简单的两步，首先通过一个分割网络预测得到文本区域，文本核以及每个像素的相似向量；然后通过预测的核重建文本实例。

其中，文本区域是为了描述文本的完整形状，文本核参数为了区分不同的文本，预测每个像素的相似向量也是为了保证同一文本像素的相似向量和文本核距离够小。

Fig.2. Overall architecture of PAN

Fig.2是PAN的整体结构，它主要可以分为三个部分：主干网络、Segmentation Head以及可学习的后处理算法。

为了减少模型的计算量并提高效率，像素聚合网络PAN使用了轻量级的ResNet18作为主干网络。

但单纯使用这样一个浅层的主干网络会使得其不具备足够的感受野，而且不能提取到足够强的特征。为了解决这样的问题，PAN在主干网络后添加了一个Segmentation Head去增强特征表达。Segmentation Head包含了特征金字塔增强模块（FPEM）和特征融合模块 (FFM)，经过这个结构，PAN预测得到了上述提到的文本区域，核以及相似向量。

最后，PAN使用一个简单而又可学习的后处理算法（Pixel Aggregation）得到最终的结果。

Fig.3. The details of FPEM

Segmentation Head中的特征金字塔增强模块（FPEM）是一个U形的模块，Fig.3展示了FPEM的结构细节，它包含了上采样增强和下采样增强两个阶段。

上采样增强作用于输入的特征金字塔，它以32、16、8、4个像素为步长在特征图上迭代增强，而下采样增强则是作用于上一阶段所产生的的特征金字塔并得到FPEM最终的输出，该阶段的增强步长为4-32。

FPEM有如下两个优势：第一，FPEM是可级联的，N个FPEM级联后的模块可以能够很好的融合不同尺度的特征，并且特征的感受野也会增大；第二，FPEM是由分离的只需要最小计算量的卷积组成，所以它的运算量很低，只有传统FPN的1/5。

Fig.4. The details of FFM

Segmentation Head中的特征融合模块（FFM）的结构细节如Fig.4所示，它能够将不同深度的FPEMs提取到的特征融合在一起，以此融合低级和高级的语义信息。FFM首先将相应尺寸的特征图逐像素相加（Element-wise），然后得到的特征会被上采样并连接成一个只有4ⅹ128的特征图。

经过Segmentation Head预测得到了文本区域、文本核和相似向量。文本区域虽然保留了文本的完整形状但也会出现区域重叠的情况，文本核可以区分不同的文本，但是它并不是完整的文本。

要得到完整的文本实例，PAN要把文本区域中的像素融合到文本核，于是提出了一个可学习的后处理算法----像素聚合（Pixel Aggregation）来指引不同的像素聚合到正确的核。

在像素聚合中，借鉴了聚类的思想，将文本实例的核视为聚类的中心，文本区域的像素是聚合样本，要将文本像素聚合到对应的核，则文本像素和相同文本的核的距离要很小。于是在训练阶段，用如下损失函数来引导像素聚类的训练：

此外，聚类中心也需要一直划分清楚，不同文本的核需要保持足够的距离。因此在训练时也用如下损失函数引导训练。

三、实验结果

TABLE 1. The results on SCUT-CTW1500.

TABLE 2. The results on Total-Text.

TABLE 3. The results on ICDAR 2015.

TABLE 4. The results on MSRA-TD500.

本文提出的PAN在不规则文本数据集SCUT-CTW1500和Total-Text以及任意四边形文本数据集ICDAR 2015和MSRA-TD500上表现非常出色。

PAN不仅在检测结果上达到了state-of-the-art的效果，而且在速度上比之前的方法都要快很多。

Fig.5展示了不同检测方法在SCUT-CTW1500的检测速度和表现的比较，可以看到PAN是效果最优且速度最快的。

Fig.5. The performance and speed on curved text dataset SCUT-CTW1500.

四、结论

这篇论文考虑了如何权衡场景文本检测中精度和速度这一重要问题，提出了一个可以实时检测任意形状文本的高效自然场景文本检测器PAN。

PAN使用了轻量的主干网络，并加入了包含特征金字塔增强模块和特征融合模块的Segmentation Head以增强特征表达，而且也不会带来额外的庞大计算量。

此外提出了可学习的后处理算法----Pixel Aggregation去预测文本核与周围像素的相似向量以得到完整的文本区域，避免了以往方法中繁琐的后处理方式。这些方法使得PAN在各数据集上取得最优结果的同时，检测的速度也能达到最优。

参考文献

[1] Wenhai Wang , Enze Xie and Xiaoge Song.Efficient and AccurateArbitrary-Shaped Text Detection with Pixel Aggregation Network. In ICCV, 2019.

[2] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick,Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networksfor object detection. In CVPR, 2017.

[3] Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang,Shuchang Zhou, Weiran He, and Jiajun Liang. EAST: an efficient and accuratescene text detector. In CVPR, 2017.

[4] Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, Jian Yang. Shape robust text detection withprogressive scale expansion network. In CVPR, 2019.

[5] Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Sheng Zhang, Curved scene text detectionvia transverse and longitudinal sequence connection, Pattern Recognition,2019.