【干货】2020年度图像图形学发展年度报告之八：自然场景文本检测与识别的深度学习方法

2021 年 10 月 27 日 中国图象图形学学会CSIG

2020年度图像图形学发展年度报告之八：《自然场景文本检测与识别的深度学习方法》由文档图像分析与识别专业委员会组织撰写

关注公众号，回复“自然场景文本检测与识别的深度学习方法”，即可下载详版学科发展报告。

点击阅读原文，即可阅读精简版学科发展报告。

摘要

许多自然场景图像中都包含丰富的文本，它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展，许多新的应用场景都需要利用这些文本信息，例如招牌识别和自动驾驶等。因此，自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一，该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则，且模型设计复杂、效率低、泛化性能差。随着深度学习的发展，自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展，其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景，对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结，阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法，进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外，列举说明了部分主流公开数据集，对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。

发展趋势与展望

文本在日常生活中扮演着十分重要的角色。场景文本理解任务具有其独特的现实应用价值和研究挑战性，该任务主要包括自然场景文本检测和自然场景文本识别。本文主要介绍了自深度学习发展以来自然场景文本检测、识别以及端到端文本检测与识别的发展现状和水平，分析了国际国内最新的研究成果，对比总结了不同方法的技术特点和局限性，最后列举了本文所介绍的所有方法在主流的公开数据集上的性能。本文描绘了一幅自然场景文本理解领域的研究蓝图，希望本工作对于领域研究人员及未来发展有所助益。

基于深度学习的自然场景文本检测方法可以分为自顶向下和自底向上两大类。自上而下的方法通常借鉴通用目标检测或实例分割的框架，通过回归或回归与分割直接预测整个文本实例，该方法好处是可以比较准确地检测任意四边形的文本实例。但是对于不规则文本的检测，这类方法处理起来会比较复杂，而且对于文本尺度的变化会比较敏感。自底向上的方法可以分成两类，一是基于像素分类的方法（即仅依靠分割），二是基于文本片段级别检测的方法。后者通常先得到文本组件，然后通过像素聚合或者“连接”等后处理方式将文本组件组合成最后的文本实例，这使得该方法可以更好地解决不规则场景文本检测的问题，且这类方法对于文本尺度变换没那么敏感，但后处理会比较复杂，如何对文本组件进行正确的组合一直是这类方法研究的重点问题；而且对于密集型的文本，很容易发生黏连的现象。目前尽管文本检测取得了很大的进步，但如何使得网络对有着复杂几何表征的文本检测更加鲁棒，以及提高文本检测的效率等一直是这一领域的研究方向。

自然场景文本识别可分为基于分割的识别算法以及无需分割的识别算法。基于分割的方法通常先定位图像中每个字符的位置，再通过单字识别得到最后的识别结果。但是该类方法受限于单字分割的性能而且缺乏语义信息的协助。而无需分割的方法则是直接利用包含文本的整图预测出最后的识别结果，该方法主要是依赖于时序连接序列（CTC）或者注意力机制（Attention）。这类方法利用全局语义特征，提高模型的性能，但也存在一些局限。比如基于CTC的识别算法受重复字符影响较大以及很难应用于二维预测（如不规则文本识别）；而基于Attention的算法需要文本特征和字符的对齐，这会带来额外的存储消耗，而且对齐出错还会导致后续文本无法准确识别，因此对于长文本的识别性能较差。所以如何提高场景文本识别的通用性和泛化性一直是值得探索的方向。自然场景文本识别依赖大量数据，所以如何进行有效的数据合成以及如何利用大量的未标注真实数据也是未来的研究热点。

对于端到端的场景文本检测与识别，当前的方法可以分为单阶段和两阶段的方法。两阶段的方法借助了Faster R-CNN和Mask R-CNN等框架，通过RoI Pooling / Align等特征对齐操作将共享特征送入后续的回归网络的同时也送入识别器，或者依赖于单字符实例分割得到识别结果。单阶段的方法则是在直接检测出文本后通过一些特征转换的操作送入识别器。尽管两种方法都在现有公开数据集上有着不错的表现，但仍有以下几点挑战：一是检测识别之间特征如何更有效地连接；二是目前端到端模型大都速度较慢，如何提高效率也是一个大的问题；三是检测和识别分支在训练时的收敛速度是不对等的，这导致了端到端系统在训练时会不稳定或者会有冗余的计算，如何平衡这两个任务之间训练时的差异性也是一个值得研究的课题。

报告章节一览

1. 引言

2. 自然场景文本检测

2.1 传统的自然场景文本检测方法简要回顾

2.2 基于深度学习的自然场景文本检测方法

3. 自然场景文本识别

3.1 基于分割的自然场景文本识别算法

3.2 无需分割的自然场景文本识别算法

3.3 其他方法

4. 端到端自然场景文本检测与识别

5. 自然场景文本检测与识别方法性能对比

5.1 常用公开数据集

5.2 自然场景文本检测性能评估

5.3 场景文本识别性能评估

5.4 端到端场景文本检测与识别性能评估

6. 结语

CSIG文档图像分析与识别专委会介绍

中国图象图形学学会文档图像分析与识别专委会成立于2017年9月17日，是直属中国图象图形学学会的分支机构。文档图像分析与识别专委会是“文档图像分析与识别”领域的全国性专业委员会，到目前为止，也是全国唯一的“文档图像分析与识别”领域学术技术专业组织。专委会聚焦于光学文字识别（OCR）、文档图像处理、文档图像理解、联机手写识别领域的学术研究、技术交流及产业应用发展，汇集国内学术界及企业界知名专家及专业技术人员，在中国图象图形学学会的领导下，旨在推进文档图像分析与识别领域的发展战略研究、学术进步与技术交流，促进全国性跨地区学术技术交流与合作，为我国模式识别与人工智能学科发展、为国家信息化、智能化建设贡献力量。

组织结构

主任：

金连文 华南理工大学

副主任：

吕　岳 华东师范大学

孙　俊 富士通研究开发中心

殷绪成 北京科技大学

秘书长：

殷绪成 北京科技大学

特别鸣谢

感谢CSIG咨询与评议工作委员会的大力支持。

CSIG咨询与评议工作委员会的主要工作包括就学科发展和学会发展组织撰写专家建议白皮书，组织科技成果鉴定。