IJCAI 2018 | 阿里提出IncepText：全新多向场景文本检测模块

2018 年 5 月 7 日 机器之心

选自arXiv

作者：Qiangpeng Yang等

机器之心编译

参与：乾树、李泽南

文本检测在很多应用中扮演着重要的角色，但这也是一个颇具挑战性的任务。阿里近期提出的端到端场景文本检测器 IncepText 在多个数据集的测试中实现了业内最佳水平，并已发布了开放的 OCR 产品接口。本研究的论文已被即将在 7 月于瑞典举行的 IJCAI 2018 大会接收。

场景文本检测是众多计算机视觉应用中最具挑战性的任务之一，它会应用在多语言翻译、图像检索、自动驾驶等场景中。其中，首当其冲的挑战是场景文本会包含各种图像，如街景、海报、菜单、室内场景等。此外，场景文本在前景文本和背景对象中都有很大的变化，并且还具有不同的光照、模糊和方向条件。

在过去几年里，场景文本检测方向涌现了很多杰出的算法。文本检测的关键在于设计正确区分文本区域和非文本区域的特征。多数传统方法如 MSER [Neumann and Matas，2010] 和 FASText [Busta et al.，2015] 都使用手动设计的文本特征。

但这些方法不足以处理复杂的场景文本。最近，基于卷积神经网络（CNN）的方法在文本检测和识别 l 领域取得了傲人的成果 [He et al., 2016b; Tian et al., 2016; Zhou et al., 2017; He et al., 2017]。基于 CNN 的模型具有强大的特征表示能力，且更深的 CNN 模型能够提取更高级别或更抽象的特征。

在该领域，主要有两种类型的场景文本检测方法，即间接回归和直接回归。间接回归方法预测 box proposals 的坐标，如 CTPN [Tian et al。，2016] 和 RRPN [Ma et al。，2017] 等研究。这些方法都是基于 FasterRCNN [Ren et al.，2015] 框架。

近期，直接回归方法在场景文本检测上已经取得了不俗的表现，例如，East [Zhou et al，2017] 和 DDR [He et al，2017] 等研究。

在阿里的论文中，研究人员受到 FCIS 实例分割启发试图解决这个问题 [Li et al。，2016]。与普通的物体检测不同，场景文本经常会遇到很大的尺度，长宽比及方向的变化。因此，我们设计了一个创新性的 Inception-Text 模块来解决这些挑战。

该模块受 GoogLeNet 中的 Inception 模块 [Szegedy et al，2015] 的启发得出，研究人员采用多个不同卷积核的卷积分支来处理不同长宽比和比例的文本。我们在每个分支后面接一个可变形的卷积层以适应多方向文本。

相比原型，另一个改进是我们用可变形的 PSROI 池化层来替换 FCIS 中的 PSROI 池化层 [Dai et al，2017a]。根据实验来看，可变形的 PSROI 池化层在分类任务中表现更好。

本研究的主要贡献如下：

我们提出了一个用于多方向场景文本检测的新的 Inception-Text 模块。实验表明，该模块可以大幅提高准确率，且计算成本很低。
我们提出使用可变形的 PSROI 池化模块来处理多方向的文本。在对可变形 PSROI 池化和量化评估学习到的偏移部分进行的量化研究表明，它可以有效处理任意方向的场景文本。
我们在三个基准数据集 ICDAR2015，RCTW-17 和 MSRA-TD500 上评估了新方法，结果表明新的方法在没有任何额外数据的情况下，在几个基准测试中都取得了业内最优的表现。
我们提出的方法已在阿里公开发布的 OCR 产品中作为 API 服务实现。

在这篇论文中，我们会首先简要介绍场景文本检测，主要关注多方向场景文本检测。然后详细讲解新提出的方法，并在三个公共基准数据集上给出实验结果。最后进行总结，并讨论未来的工作。

提出的方法

我们提出的方法基于最初被提出用于实例分割的 FCIS [Li et al，2016] 框架。我们设计了一个创新的 Inception-Text 模块，并使用可变形的 PSROI 池化层来扩展该框架。图 1 给出了我们提出的模型体系结构的概述。

在图 1 中，基础特征提取模块是 ResNet50 [He et al，2016a]。精细的特征信息对于分割任务尤为重要，对于场景文本检测，第 5 阶段的下采样可能会丢失一些有用的信息。

因此，我们在第 5 阶段利用带孔卷积算法（hole algorithm）[Long et al，2015] 维持感受野。这一阶段的步长也由 2 改为 1，并且为了弥补步长减小带来的问题，这一阶段的所有卷积滤波器都使用带孔卷积来补偿减小的步幅。

为了预测小文本区域的准确位置，还需要考虑低级别特征。如图 1 所示，res4f 层和 res5c 层上采样 2 倍，再与 res3d 层相加。这两个融合的特征图后面接着用于场景文本检测的 Inception-Text 模块。

我们用可变形 PSROI 池化来替换 FCIS 中的 PSROI 池化，因为标准 PSROI 池化只能处理水平文本，而场景文本方向总是不确定的。类似于 FCIS，我们获得了如图 1 所示的带有 mask 和分类分数的文本框，然后根据他们的分数将 NMS 应用到框中。

对于每个未被抑制的框，我们要找到它的相似框，即与其自身 IoU> = 0.5 的框。未抑制的框预测的 mask 与其相似框通过使用分类分数作为它们的平均权重逐像素地进行加权平均来合并。然后使用一个简单的最小四边形算法来生成方向框。

图 1：IncepText 体系结构。该图中的基础特征提取模块是 ResNet-50。Inception-Text 模块在特征融合层后面，原始 PSROI 池化被替换为可变形的 PSROI 池化。

图 2： Inception-Text 模块。

图 3：标准卷积和可变形卷积之间的比较。标准卷积（a）中的感受野是固定的，而可变形卷积（b）的感受野是自适应的。

图 8：我们的方法在 ICDAR2015（a）、RCTW-17（b）、MSRA-TD500（c）上的检测结果。（d）中列出了一些失败案例。红色框是 ground-truth 实景框，而绿色框是预测结果。黄色椭圆的边界框表示错误结果。

表 2：ICDAR2015 附带场景文本定位任务的结果。

论文：IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection（IncepText：一种新的具有可变形 PSROI 池化的用于多向场景文本检测的 Inception-Text 模块）

论文链接：https://arxiv.org/abs/1805.01167

摘要：附带场景文本检测，尤其是多向文本检测，是众多计算机视觉应用中最具挑战性的任务之一。与常见的物体检测任务不同，场景文本的长宽比，尺度和方向常常会发生巨大变化。

为了解决这一问题，我们从实例分割的角度提出了一种创新性的端到端场景文本检测器 IncepText。我们设计了一个新的 Inception-Text 模块，并引入了可变形的 PSROI 池化来处理多向文本检测。基于 ICDAR2015，RCTW-17 和 MSRA-TD500 数据集的大量拓展实验证明了我们方法的高效和可行性。

我们提出的方法在 ICDAR2015 比赛中获得第一名，并在其他数据集上获得最好的性能。此外，我们还发布了公众可访问的 OCR 产品接口。