【华南理工】最新《场景文本识别》2020综述论文,34页系统性阐述60+STR方法体系进展

2020 年 12 月 6 日 专知

【导读】自然场景中的文本识别(scene text recognition, STR)是计算机视觉和模式识别领域的研究热点最近华南理工的学者发布了关于STR的综述论文总结了STR的基本问题和最先进的技术,介绍新的见解和想法,并展望未来的趋势来展示STR的全貌。


文字的历史可以追溯到几千年前。文本携带的丰富而精确的语义信息在广泛的基于视觉的应用场景中非常重要。因此,自然场景中的文本识别一直是计算机视觉和模式识别领域的研究热点。近年来,随着深度学习的兴起和发展,许多方法在创新、实用性和效率方面都显示出良好的前景。本文的目的是: (1)总结了与场景文本识别相关的基本问题和研究现状; (2)提出新的见解和想法; (3)对公共资源进行全面调查; (4)指出今后的工作方向。综上所述,本文献综述试图呈现场景文本识别领域的全貌。它为进入这一领域的人们提供了一个全面的参考,并可能有助于启发未来的研究。相关的资源可以在我们的Github资源库中找到:


https://arxiv.org/pdf/2005.03492.pdf


概述


文本是一套符号系统,用来记录、交流或继承文化。作为人类最具影响力的发明之一,文字在人类生活中发挥了重要作用。具体来说,文本所携带的丰富而精确的语义信息在图像搜索[1]、智能检测[2]、工业自动化[3]、机器人导航[4]、即时翻译[5]等广泛的基于视觉的应用场景中非常重要。因此,自然场景中的文本识别受到了研究者和实践者的关注,比如最近出现的“ICDAR鲁棒阅读比赛”[6]、[7]、[8]、[9]、[10]、[11]、[12]。


在自然场景中识别文本,也称为场景文本识别(scene text recognition, STR),通常被认为是一种特殊的光学字符识别(OCR)形式,即,camerabased OCR。虽然OCR在扫描文档中已经得到了很好的发展,但由于复杂的背景、不同的字体和不完善的成像条件等诸多因素,它仍然具有挑战性。图1比较了被扫描文档中的STR和OCR的以下特征。



  • 背景: 与OCR扫描文档不同的是,自然场景中的文本可以出现在任何东西上(例如,招牌、墙壁或产品包装)。因此,场景文本图像可能包含非常复杂的背景。此外,背景的纹理在视觉上可能与文本相似,这给识别带来了额外的挑战。


  • 形式: 扫描文件的文本通常以单一颜色打印,字体规则,大小一致,排列整齐。在自然场景中,文本以多种颜色出现,字体不规则,大小不一,方向各异。文本的多样性使得STR在扫描文档中比OCR更加困难和具有挑战性。


  • 噪声: 自然场景中的文本通常会被噪声干扰所扭曲,例如不均匀照明、低分辨率和运动模糊。不完善的成像条件导致STR失效。


  • 触达: 扫描文本通常是正面的,占据图像的主要部分。然而,场景文本是随机捕获的,这导致了不规则的变形(如透视变形)。文本的各种形状增加了识别字符和预测文本字符串的难度。


识别自然景物中的文本,由于其重要性和挑战性,近年来引起了学术界和工业界的极大兴趣。


早期研究[15],[16],[17]主要依靠手工制作特征。这些特征的低性能限制了识别性能。随着深度学习的发展,神经网络极大地提高了STR的性能。几个主要因素推动了基于深度学习的STR算法的发展。第一个因素是硬件系统的进步。高性能计算系统[18]可以训练大规模的识别网络。此外,现代移动设备[19]、[20]能够实时运行复杂的算法。第二个是基于深度学习的STR算法中的自动特征学习,这不仅使研究人员从设计和选择手工特征的繁重工作中解放出来,而且显著提高了识别性能。三是对STR应用[21]、[22]、[23]、[24]、[25]的需求不断增长。自然场景中的文本可以提供丰富而准确的信息,有利于理解场景。在大数据时代,自然场景中的文本自动识别在经济上是可行的,这吸引了研究者和实践者。


本文试图全面回顾STR领域,并为算法之间的公平比较建立一个基线。我们通过总结STR的基本问题和最先进的技术,介绍新的见解和想法,并展望未来的趋势来展示STR的全貌。因此,本文旨在为研究人员提供参考,并在今后的工作中有所帮助。此外,我们还提供了对公共资源的全面回顾,包括标准基准数据集和相关代码。


在文献[26],[27],[28],[29],[30],[31]中有一些STR综述。然而,上述[26]、[27]、[28]、[29]、[30]的调查大多已经过时。许多最近的进展,如2018年和2020年开发的算法,都没有包括在这些调查中。我们建议读者阅读这些论文,以获得更全面的历史文献综述。此外,Zhu等人的[29]和Long等人的[31]综述了场景文本检测和识别的方法。Yin等人研究了视频中文本检测、跟踪和识别的算法。与这些调查不同的是,我们的论文主要关注STR,旨在对这一领域提供更详细和全面的概述。


图像中文本的典型分类


端到端系统的说明,定义了不同阶段的各种基本问题:文本检测、文本定位、文本验证、文本分割和文本识别。


场景文本识别的各种应用实例







专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“STR” 可以获取最新《场景文本识别》2020综述论文,21页系统性阐述60+STR方法体系进展》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

「深度图像检索: 2012到2020」大综述论文,21页pdf
专知会员服务
41+阅读 · 2021年1月30日
最新《图像到图像转换:方法与应用》综述论文,19页pdf
专知会员服务
32+阅读 · 2021年1月25日
【2020新书】《图核方法最新进展与未来挑战》,151页pdf
专知会员服务
64+阅读 · 2020年11月15日
最新《知识驱动的文本生成》综述论文,44页pdf
专知会员服务
77+阅读 · 2020年10月13日
专知会员服务
79+阅读 · 2020年10月2日
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
【综述】交通流量预测,附15页论文下载
专知会员服务
131+阅读 · 2020年4月23日
【综述】交通流量预测,附15页论文下载
专知
22+阅读 · 2020年4月23日
全面梳理:图像配准综述
极市平台
6+阅读 · 2019年12月13日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
基于二进制哈希编码快速学习的快速图像检索
炼数成金订阅号
8+阅读 · 2018年5月17日
Visualizing and Measuring the Geometry of BERT
Arxiv
7+阅读 · 2019年10月28日
Arxiv
7+阅读 · 2019年10月6日
Arxiv
19+阅读 · 2019年4月5日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
「深度图像检索: 2012到2020」大综述论文,21页pdf
专知会员服务
41+阅读 · 2021年1月30日
最新《图像到图像转换:方法与应用》综述论文,19页pdf
专知会员服务
32+阅读 · 2021年1月25日
【2020新书】《图核方法最新进展与未来挑战》,151页pdf
专知会员服务
64+阅读 · 2020年11月15日
最新《知识驱动的文本生成》综述论文,44页pdf
专知会员服务
77+阅读 · 2020年10月13日
专知会员服务
79+阅读 · 2020年10月2日
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
【综述】交通流量预测,附15页论文下载
专知会员服务
131+阅读 · 2020年4月23日
相关论文
Visualizing and Measuring the Geometry of BERT
Arxiv
7+阅读 · 2019年10月28日
Arxiv
7+阅读 · 2019年10月6日
Arxiv
19+阅读 · 2019年4月5日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
3+阅读 · 2017年12月18日
Top
微信扫码咨询专知VIP会员