史上最全场景文字检测资源合集(70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息)

2019 年 8 月 30 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

本文授权转载自:CSIG文档图像分析与识别专委会


本文总结了2012年以来在场景文本检测领域的70篇代表性论文、21个常用数据集、15份开源代码,包含176个实验结果以及超过1300条统计信息。Github资源链接见文末。

一、前言

许多自然场景中包含着丰富的文本信息,对于理解自然场景图像有着十分重要的作用。 随着互联网和移动互联网技术飞速发展,许多新型的应用场景都需要利用自然场景中的丰富的文本信息,例如车牌检测和自动驾驶等。场景文本的分析与处理越来越成为计算机视觉领域的研究热点之一。
OCR Optical Character Recognition) ,  光学字符识别,是指对输入的扫描文档图像进行分析处理,检测并识别出该图像当中的文本信息 而自然场景中的文本,不同于传统的扫描图像,因其文字展现形式丰富,背景复杂,分辨率和亮度不一,容易受到环境噪声等因素的影响,使得对其的分析与处理难度远高于传统的扫描文档图像。场景文本检测( Scene Text Detection ),即准确定位自然场景中文本的位置,是场景文本分析与处理的基石。近年来,随着深度学习的发展,场景文本检测取得了突破性的进展。

二、场景文本检测数据集

本文总共整理了21个场景文本检测数据集,根据数据集的形式和应用场景可以按如下标准划分:

1.  Horizontal-Text Datasets
ICDAR 2003、 ICDAR 2011、ICDAR 2013;
2.  Arbitrary-Quadrilateral-Text Datasets
USTB-SV1K、SVT、SVT-P、ICDAR 2015、COCO-Text、MSRA-TD500、MLT 2017、MLT 2019、CTW、RCTW-17、ReCTS;
3.  Irregular-Text Datasets
CUTE80、Total-Text、SCUT-CTW1500、LSVT、ArT; 
4.  Synthetic Datasets
Synth80k、SynthText。

详细对比内容如表1所示,其中包括语种、图片以及文本数量(训练/测试)、标注类型等,更多内容详见资源链接

表1 场景文本检测数据集对比

三、场景文本检测方法总结

本小节整理并对比了场景文本检测中70篇重要论文(发表于TPAMI、TIP等期刊以及CVPR,ICCV等CCF A类会议),对比内容包括代码是否开源、方法分类、适用场景、出处、时间以及创新点等。

本文将场景文本检测方法分为四类:

(a) Traditional methods;

(b) Segmentation-based methods;

(c) Regression-based methods;

(d) Hybrid methods.

详细对比见表2-5以及资源链接。注:表格中HoriQuadIrreg分别代表水平文本,任意四边形文本以及不规则文本。

1. Traditional methods

表2 传统场景文本检测方法对比

2. Segmentation-based methods

表3 基于分割的场景文本检测方法对比

  3. Regression-based methods

表4 基于回归的场景文本检测方法对比

4. Hybrid methods

表5 场景文本检测的集成方法对比 

 
四、场景文本检测结果汇总
本小节整理了 70 篇场景文本检测重要论文的在不同类型数据集上的评估结果。部分截图如下表,详细内容请见资源链接。(注:P、R、F 分别代表Precision、RecallF-measure
1.  Detection Results on Horizontal-Text Datasets

2.  Detection Results on Arbitrary Quadrilateral Text Datasets

3. Detection Results on Irregular-Text Datasets

 
五、小结

本文总结了2012年以来在场景文本检测领域的70篇重要论文、21个常用数据集、15份论文开源代码、176个实验结果以及超过1300条统计信息。此外,我们还总结了近年来场景文本检测评估标准的相关论文和部分企业提供的OCR服务。详细内容见下面的Github链接。


Github资源链接
  • Scene Text Detection

  • https://github.com/HCIILAB/Scene-Text-Detection




作者:刘崇宇
编排:高  学 
审校:殷  飞 
发布:金连文 


作者及资源整理者介绍:刘崇宇,华南理工大学电子与信息学院在读硕士生。


免责声明:本文仅代表作者观点,不代表本公众号立场。


重磅!CVer-场景文本检测交流群成立啦


扫码添加CVer助手,可申请加入CVer-场景文本检测学术交流群,同时还可以加入目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测和模型剪枝&压缩等群。一定要备注:研究方向+地点+学校/公司+昵称(如场景文本检测+上海+上交+卡卡)

▲长按加群


▲长按关注我们

麻烦给我一个在看!

登录查看更多
4

相关内容

3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
专知会员服务
109+阅读 · 2020年3月12日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
多目标跟踪 近年论文及开源代码汇总
极市平台
20+阅读 · 2019年5月12日
资源 | 开源数据集
AI研习社
8+阅读 · 2018年9月25日
腾讯数平精准推荐 | OCR技术之检测篇
机器学习研究会
13+阅读 · 2018年3月17日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
Arxiv
35+阅读 · 2019年11月7日
Local Relation Networks for Image Recognition
Arxiv
4+阅读 · 2019年4月25日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
3+阅读 · 2018年5月28日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
6+阅读 · 2018年4月23日
Arxiv
7+阅读 · 2017年12月26日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员