【博士论文】自然场景中不规则文字的检测和识别研究

来自南京大学的王文海博士论文，入选2022年度“CCF优秀博士学位论文奖”初评名单！

https://www.ccf.org.cn/Focus/2022-12-08/781244.shtml

自然场景文字的检测和识别是计算机视觉领域中的一个重要研究课题，旨在赋予智能设备 “读懂” 文字的能力。在当今的信息化时代，这项技术有着非常广泛的应用场景，如数字图书馆、自动驾驶、无人超市、自动化办公、智能停车场、实景翻译、自助取件等。近年来，随着深度学习的蓬勃发展，文字检测和识别技术取得了长足进步。尽管现有的方法已经能处理一些复杂的场景，如极端光照、部分遮挡、倾斜文字等，但依然存在一些尚未解决的技术难点。其中，包括任意形状文字、视觉歧义文字等在内的不规则文字的检测和识别正是其中的重要挑战之一。不规则文字经常出现在店铺门面、商品包装、宣传海报等各类生活场景中。然而，现有的方法主要是为直线文字而设计，难以有效地检测和识别场景中的不规则文字。

本文着重围绕自然场景中不规则文字的检测和识别进行了深入研究，旨在设计不受场景限制的通用文字检测和识别方法，主要工作如下：（1）针对任意形状文字的检测问题，本文首先提出了一种有效的任意形状文字表示方法，并在此基础上设计了一种任意形状文字检测框架，即渐进尺度扩展网络（Progressive Scale Expansion Network，PSENet）。该方法创新地将文字表示为多个不同尺度的文字核，并采用渐进尺度扩展算法将最小尺度的文字核逐步扩展为完整的文字。通过这种思路，渐进尺度扩展网络可以准确地检测包括直线文字和弯曲文字在内的任意形状文字，提高了场景文字检测方法的通用性。在任意形状文字数据集 CTW1500 上，渐进尺度扩展网络在文字检测精度上比该数据集的基线方法高接近 10%。（2）实际应用对算法效率的要求较高。针对这一问题，本文提出了一种任意形状文字实时检测方法，即像素聚合网络（Pixel Aggregation Network， PAN）。该方法包含了一个低计算复杂度的特征增强模块和像素聚合算法，在保证文字检测精度的同时，显著地提高了模型的推理速度。该方法是首个任意形状文字实时检测方法，在任意形状文字数据集 Total-Text 上的推理速度高达 82.4 帧/秒，是同类方法速度的 8 倍。（3）在场景文字识别方面，针对大多数现有方法的检测和识别模块相互独立以及模型效率较低的问题，本文提出了一种端到端任意形状文字实时识别方法，即端到端像素聚合网络（PAN++）。该方法在像素聚合网络（PAN）的基础上进行扩展，加入基于文字掩模的特征提取器和轻量级的文字识别模块，从而构建了一个可以实时检测和识别任意形状文字的端到端框架。在包括 Total Text 和 ICDAR 2015 数据集在内的多个基准测试上，该方法取得了同期最优的端到端识别精度和推理速度。（4）最后，考虑到实际场景中往往存在字符间距过大、多文字行并列等可能造成难以从视觉特征判别的歧义文字的问题，本文进一步研究了视觉歧义文字的检测和识别方法。视觉歧义文字通常在视觉上满足正常文字行的要求，但从文字内容角度上看不符合语言习惯。然而，大多数现有的方法都是基于纯视觉特征来进行文字检测和识别的，难以处理这类文字。为此，本文提出了一种端到端的消歧文字识别器（Ambiguity Eliminating Text Spotter，AE TextSpotter）。该方法通过视觉特征检测和识别文字，并根据文字识别内容的语言特征为文字检测结果重新打分，有效地解决了视觉歧义文字的检测和识别问题。在本文构建的视觉歧义文字验证集 TDA-ReCTS 上，消歧文字识别器在文字检测精度上比之前的方法至少高 4.0%，在端到端文字识别精度上比之前的方法至少高 4.6%。