自然场景文本检测与识别中的深度学习方法综述

2021 年 3 月 19 日 专知

许多自然场景图像中都包含着丰富的文本,他们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。近年来随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对近几年基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和他们的技术发展路线。此外还列举说明了一些主流公开数据集,并对比了各个模型方法在代表性数据集上的性能情况。最后本文总结了目前不同场景数据下的自然场景文本检测、识别以及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。


http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202101210000003&journal_id=jig




文本是人类最伟大和最具影响力的发明之一, 它是人类智慧的结晶,是人类文化、思想传承的一 种最基本的表达方式和不可或缺的载体。在二十一 世纪的今天,文本与我们日常生活密切相关,我们 描述、理解万事万物,表达情感,与他人交流都离 不开文本。文本以各种形式存在于我们的生活中, 尤其在信息时代,随着数码相机、智能手机等具有 拍照和摄像功能的便携式电子设备的广泛使用,大 量的文本也以图像或者视频的数据方式被保存下 来。同时,移动互联网技术的飞速发展使得这类数 据的传播和分享更加便捷。因此,人们迫切希望利 用计算机对图像或视频中的文本进行检测识别,形 成语义表达的方式对其进行理解。这一方面可以提 高各种应用场景的生产效率,比如银行的票据、文 档分析等业务需求;另一方面这些文本可以作为描 述场景的额外信息,辅助各类计算机视觉的实际应 用任务,例如图像检索、自动驾驶、视觉信息追踪 等。因此,文本的分析与处理越来越成为计算机视 觉领域的研究热点之一。


光学字符识别(Optical Character Recognition, OCR),是指对输入的扫描文档图像进行分析处理, 检测并识别出该图像当中的文本信息。而自然场景 文本提取技术是传统 OCR 技术在自然场景图像的 扩展和延伸,具有广阔的应用前景。自然场景文本 主要出现在车牌、广告牌、路标和招牌等场景上。不同于传统的扫描图像文本,自然场景文本因表现 形式丰富,图像背景复杂,以及图像拍摄引入的干 扰因素等的影响,使得对其的分析与处理难度远高 于传统的扫描文档图像。


1)文本展现形式丰富。自然场景中的文本对象多样 且变化很大,具体可分为以下四个方面:一是文本 形状和方向相比于通用目标而言具有多样性。自然 场景中的文本以水平形状文本、任意四边形文本以 及不规则文本的形式存在;二是文本的尺度变化很 大;三是文本的语种多样,包括了中文、英文和阿 拉伯文等一系列语种文本,不同语种属性复杂不一;四是文本的排列和版面复杂,对于排列密集的文本, 其分析和处理会具有很大的歧义性。


2)图像背景复杂。不同于传统文档图像相对干净的 背景,自然场景文本的背景信息是很复杂的。通常 很多文本会和背景有相似的纹理信息,被无关物体 遮挡,以及图像或视频中的亮度变化等,都会使得检测识别受到很大程度的干扰。 


3)图像拍摄引入的干扰因素。摄像头抖动、光照、 角度等因素都会给自然场景文本检测识别增加极大 的挑战。自然场景文本的提取技术可以分为两个不同的 子任务,包括自然场景文本检测和自然场景文本识 别。自然场景文本检测是准确定位自然场景中文本 的位置,自然场景文本识别则是识别自然场景图像 中的文本信息,而端到端自然场景文本检测与识别 则是将检测与识别组合成一个完整的过程,在成功 定位到文本位置的同时识别出对应的文本内容。近 年来,随着深度学习技术的快速发展,国内外学者 针对各种问题和挑战,在自然场景文本检测、识别 以及端到端自然场景文本检测与识别的任务中都尝 试提出了相应的解决方案,极大地促进了自然场景 文本提取和理解技术的发展。相比于传统的依赖于 手工设计特征的自然场景文本检测与识别算法,基 于深度学习的方法具有以下特征: 

1)自动化程度高。基于深度学习的自然场景文本检 测与识别算法可以自动地捕获文本图像的高级视觉 特征,不仅使研究人员和相关从业人员摆脱了手工 设计特征和验证特征的繁复过程,而且大大降低了 研究人员的门槛。 


2)检测识别性能高效。基于深度学习的自然场景文 本检测与识别算法的识别性能相比于基于手工设计 特征的传统文本识别算法而言,识别性能更好。 


3)泛化性能优越。基于深度学习的自然场景文本检 测与识别算法具备更优越的泛化性能,可以很容易 地应用于相似的视觉任务中。 


本文接下来的章节对近年来基于深度学习的自 然场景文本检测、自然场景文本识别以及端到端自 然场景文本检测与识别算法的思想和局限性分别进 行了归纳、分析与总结。同时也对他们在主流数据 集上的性能进行了对比。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“文本检测” 就可以获取自然场景文本检测与识别中的深度学习方法综述》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

专知会员服务
69+阅读 · 2021年5月21日
基于深度学习的视频目标检测综述
专知会员服务
81+阅读 · 2021年5月19日
专知会员服务
121+阅读 · 2021年4月29日
基于深度学习的行人检测方法综述
专知会员服务
68+阅读 · 2021年4月14日
专知会员服务
45+阅读 · 2021年3月24日
专知会员服务
114+阅读 · 2021年1月11日
专知会员服务
29+阅读 · 2021年1月9日
专知会员服务
123+阅读 · 2020年11月15日
深度学习目标检测方法综述
专知会员服务
273+阅读 · 2020年8月1日
基于深度学习的表面缺陷检测方法综述
专知会员服务
85+阅读 · 2020年5月31日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
最全综述:基于深度学习的三维重建算法
极市平台
12+阅读 · 2020年3月17日
封面故事 | 从传统到深度:火灾烟雾识别综述
中国图象图形学报
12+阅读 · 2019年12月30日
人脸识别技术全面总结:从传统方法到深度学习
物联网智库
4+阅读 · 2019年2月15日
腾讯数平精准推荐 | OCR技术之检测篇
机器学习研究会
13+阅读 · 2018年3月17日
【前沿】凌空手势识别综述
科技导报
12+阅读 · 2017年8月17日
One-Class Classification: A Survey
Arxiv
7+阅读 · 2021年1月8日
Arxiv
8+阅读 · 2020年10月7日
Arxiv
5+阅读 · 2019年11月22日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Arxiv
136+阅读 · 2018年10月8日
Stock Chart Pattern recognition with Deep Learning
Arxiv
6+阅读 · 2018年8月1日
VIP会员
相关VIP内容
专知会员服务
69+阅读 · 2021年5月21日
基于深度学习的视频目标检测综述
专知会员服务
81+阅读 · 2021年5月19日
专知会员服务
121+阅读 · 2021年4月29日
基于深度学习的行人检测方法综述
专知会员服务
68+阅读 · 2021年4月14日
专知会员服务
45+阅读 · 2021年3月24日
专知会员服务
114+阅读 · 2021年1月11日
专知会员服务
29+阅读 · 2021年1月9日
专知会员服务
123+阅读 · 2020年11月15日
深度学习目标检测方法综述
专知会员服务
273+阅读 · 2020年8月1日
基于深度学习的表面缺陷检测方法综述
专知会员服务
85+阅读 · 2020年5月31日
相关资讯
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
最全综述:基于深度学习的三维重建算法
极市平台
12+阅读 · 2020年3月17日
封面故事 | 从传统到深度:火灾烟雾识别综述
中国图象图形学报
12+阅读 · 2019年12月30日
人脸识别技术全面总结:从传统方法到深度学习
物联网智库
4+阅读 · 2019年2月15日
腾讯数平精准推荐 | OCR技术之检测篇
机器学习研究会
13+阅读 · 2018年3月17日
【前沿】凌空手势识别综述
科技导报
12+阅读 · 2017年8月17日
相关论文
One-Class Classification: A Survey
Arxiv
7+阅读 · 2021年1月8日
Arxiv
8+阅读 · 2020年10月7日
Arxiv
5+阅读 · 2019年11月22日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
Arxiv
136+阅读 · 2018年10月8日
Stock Chart Pattern recognition with Deep Learning
Arxiv
6+阅读 · 2018年8月1日
Top
微信扫码咨询专知VIP会员