Automated recognition of texts in scenes has been a research challenge for years, largely due to the arbitrary variation of text appearances in perspective distortion, text line curvature, text styles and different types of imaging artifacts. The recent deep networks are capable of learning robust representations with respect to imaging artifacts and text style changes, but still face various problems while dealing with scene texts with perspective and curvature distortions. This paper presents an end-to-end trainable scene text recognition system (ESIR) that iteratively removes perspective distortion and text line curvature as driven by better scene text recognition performance. An innovative rectification network is developed which employs a novel line-fitting transformation to estimate the pose of text lines in scenes. In addition, an iterative rectification pipeline is developed where scene text distortions are corrected iteratively towards a fronto-parallel view. The ESIR is also robust to parameter initialization and the training needs only scene text images and word-level annotations as required by most scene text recognition systems. Extensive experiments over a number of public datasets show that the proposed ESIR is capable of rectifying scene text distortions accurately, achieving superior recognition performance for both normal scene text images and those suffering from perspective and curvature distortions.


翻译:多年来,对现场文本的自动识别一直是一项研究挑战,这主要是因为视觉扭曲、文字线曲线、文字样式和各种类型的成像文物的文字外观任意变化。最近的深层次网络能够学习成像文物和文字样式变化方面的有力表述,但在处理带有视觉和曲线扭曲的现场文本时仍面临各种问题。本文件展示了一个端到端的可训练现场文本识别系统(ESIR),该系统迭接地消除了视觉扭曲和文字线曲线,这是由更好的现场文本识别性能所驱动的。开发了一个创新的校正网络,它利用了新颖的对线转换来估计场面文字线的形状。此外,还开发了一个迭代校正管道,使场面文字扭曲能被迭代地纠正为正面方圆形观点。ESIR还能够根据大多数场面文本识别系统的要求对初始化进行参数调整,培训只需要现场文本图像和字级说明。对一些公共数据集进行的广泛实验表明,拟议的ESIR能够准确地纠正场面文字扭曲,从正常的图像和曲线角度实现高级的扭曲。

3
下载
关闭预览

相关内容

 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
28+阅读 · 2020年5月19日
专知会员服务
60+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
LibRec 精选:从0开始构建RNN网络
LibRec智能推荐
5+阅读 · 2019年5月31日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
20+阅读 · 2020年6月8日
Arxiv
4+阅读 · 2019年8月7日
Local Relation Networks for Image Recognition
Arxiv
4+阅读 · 2019年4月25日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
Top
微信扫码咨询专知VIP会员