ECCV 2020 | PlugNet：基于可插拔的超分辨学习单元的文本识别方法

会员服务 ·

ECCV 2020 | PlugNet：基于可插拔的超分辨学习单元的文本识别方法

2020 年 10 月 14 日 CVer

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

本文作者：Robert Yang

https://zhuanlan.zhihu.com/p/264104429

本文已由原作者授权，不得擅自二次转载

ImageDT 图匠数据联合华中师范提出低质退化文本识别算法 PlugNet，论文被计算机视觉三大顶级会议之一的 ECCV2020 接收。

代码：https://github.com/huiyang865/plugnet
https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123600154.pdf

导语

自然场景文本识别是计算机视觉领域的一个经典问题，并被广泛使用于无人驾驶、视觉识别等领域。不同于电脑中的文本识别，自然场景中所采集的文本，往往包含着大量低质量的图像，这对于目前的文本识别器来说是一个相当棘手的问题。为此，ImageDT 图匠数据联合华中师范大学提出，“PlugNet：一种基于可插拔的超分辨学习单元的文本识别方法”（ PlugNet: Degradation Aware Scene Text Recognition Supervised by a Pluggable Super-Resolution Unit），显著提升了通用文本识别方法在低质量文本上的识别效果，并在更加广泛的通用文本基线数据集中取得了目前最佳的性能。目前，这项研究工作已经被欧洲计算机视觉大会（ECCV2020）收录。

如图 1 所示，此前，解决模糊问题往往需要依赖于串联一个大型的超分辨网络来进行图像级的超分辨学习，以此改善输入图像的质量。这种方案往往需要依赖有力的数据集划分以及大量的计算资源，在实际应用中显得并不具有性价比。

因此，作者提出了一个含有可插拔超分辨单元的端到端学习的文本识别方法（PlugNet）。通过在训练时增加超分辨支路来改善特征表达的方式提升低质量文本的识别结果，这也就意味着相对于原始的文本识别方案，PlugNet 在应用时（前向计算）没有增加任何额外的计算量。

PlugNet 的主要贡献在于:

利用特征级超分辨学习来增加用于识别特征的鉴别能力，进而提升文本识别结果的精度。
针对原始文本识别方法使用 CNN 压缩图像分辨率的问题，提出了使用特征压缩模块进行替代，尽可能的更好的保留特征原始的空间特性。
算法训练时间无显著增加，推理时间不变的情况下，低质量图像精度显著提升，非常有利于对实时和精度要求较高的应用场景。

plugnet

如图 2 所示，PlugNet 的构建基于自顶而下的文本识别方案，共包含五个模块，分别是校正模块、特征提取模块、特征压缩模块、识别模块和可插拔的超分辨单元。

校正模块：使用一个简单的浅层卷积神经网络预测了 20 个关键点位置来约束文字的上下边缘，并通过 TPS 方法从原始的图像中采样得到校正图像。
特征提取模块：沿袭了 ResNet 的结构作为主干网络，选取了四倍下采样的特征图来作为最终的特征尺度。为了更好的将底层特征引入到识别的部分中，作者使用了一个特征增强块，通过将不同层的特征下采样并进行通道融合，让最终的特征能够获取多元化的语义信息。
特征压缩模块：通过 1*1 降维和 Reshape 的方式，从特征提取模块输出的特征中，获取到输入到识别模块的 1 维向量。在传统的文本识别方案中，常使用 CNN 来进行特征的压缩，但是在过去两年的研究中发现，CNN 对于空间特征显得并不敏感，这在一定程度上使得过去的文本识别方法的校正部分，不能够很好的对文本的上下边缘进行预测。因此，PlugNet 采用了更为直接的手段，采用特征压缩模块取代了传统的 CNN 压缩，更多的保留了原始的空间位置信息。
识别模块：使用基于 LSTM 的 Encoder-Decoder 架构，这种方案在过去的数年中，在文本识别领域取得了极佳的效果。因此，PlugNet 在识别部分仍然沿用了这一方案，通过将特征压缩模块得到的一维向量输入到双向 LSTM 的 Encoder 和基于注意力机制的 Decoder 结构,最终输入文本识别的结果。
可插拔超分辨单元：使用了 2 个基于 Resnet 结构的超分辨基础单元和一个上采样部分，将共享的特征恢复成原始图像对应的超分辨图像。为了更好的训练超分辨单元、改善特征的表达，使用了如下两种特征增强的方式：高斯模糊和 4 倍上下采样。其生成方式可以表示为：

其中，和分别代表 4 倍上下采样和高斯模糊处理，和是两个随机参数，是文章中所使用的阈值。

在损失函数部分，作者使用了一个比较通用的多任务形式，总的损失由文本识别部分的交叉熵损失和超分辨部分的 L1 损失构成，并使用了一个超参数对两个部分的权重进行调节，这部分可以描述为：

实验

作者选取了文本识别领域应用最为广泛的 7 个数据集进行测试，分别是 SVT, SVTP, IIIT5K, ICDAR2003, ICDAR2013, ICDAR2015 以及 CUTE80。实验的第一部分讨论了不同的特征分辨率对于文本识别的影响。为了保证公平性，对于不同的特征分辨率，实验通过调整 1*1 卷积的维度，确保 Reshape 后的特征尺度的完全相同。从下面的图表可以看到，特征分辨率的提升有效的帮助校正模块定位到文字部分的边界，从而改善了文本识别的性能。

如下图所示，作者也对所提出的模块和方案进行了相应的消融实验以证明其作用，尤其是在模糊文本的识别问题上，PlugNet 的表现相较于之前的文本识别方法有着较明显的改善。

当然，作者也讨论超参数的影响，下面的图展示了不同的情况下识别准确率和共享特征的变化。

最后，实验在大量的通用文本数据集上与其他 SOTA 的方法进行了比较。PlugNet 在所有的 7 个数据集中取得了 6 个数据集的最佳结果，尤其是在模糊文本较多的 SVT 数据集中相较于其他方法有着较大的领先。

总结

总的来说，PlugNet 提出了一种端到端可训练的退化感知场景文本识别器, 该方法结合可插拔超分辨率单元（PSU）从特征层解决低质量文本识别问题。它只在训练阶段进行可接受的额外计算，在推理阶段不需要额外的计算，最大程度减小了网络模型的大小和训练难度，并在模糊文本识别问题上取得了极佳的效果。这种通过超分辨学习来改善特征的网络设计方式，相比于传统的图像级超分辨学习方案，摒弃了在应用中使用大型而复杂的超分辨网络，联合照片质量恢复技术，从特征层面提升表达能力，确实让人耳目一新。这未尝不是超分辨方法在实际场景中一种更加简单的应用新思路。相信这项工作所提出的方案，在其他研究领域也将会有更为广泛的应用前景。

下载1：动手学深度学习

在CVer公众号后台回复：动手学深度学习，即可下载547页《动手学深度学习》电子书和源码。该书是面向中文读者的能运行、可讨论的深度学习教科书，它将文字、公式、图像、代码和运行结果结合在一起。本书将全面介绍深度学习从模型构造到模型训练，以及它们在计算机视觉和自然语言处理中的应用。

下载2：CVPR / ECCV 2020开源代码

在CVer公众号后台回复：CVPR2020，即可下载CVPR 2020代码开源的论文合集

在CVer公众号后台回复：ECCV2020，即可下载ECCV 2020代码开源的论文合集

重磅！CVer-论文写作与投稿交流群成立

扫码添加CVer助手，可申请加入CVer-论文写作与投稿 微信交流群，目前已满2300+人，旨在交流顶会（CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等）、顶刊（IJCV/TPAMI/TIP等）、SCI、EI、中文核心等写作与投稿事宜。

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如论文写作+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群