In this paper, we study the problem of text line recognition. Unlike most approaches targeting specific domains such as scene-text or handwritten documents, we investigate the general problem of developing a universal architecture that can extract text from any image, regardless of source or input modality. We consider two decoder families (Connectionist Temporal Classification and Transformer) and three encoder modules (Bidirectional LSTMs, Self-Attention, and GRCLs), and conduct extensive experiments to compare their accuracy and performance on widely used public datasets of scene and handwritten text. We find that a combination that so far has received little attention in the literature, namely a Self-Attention encoder coupled with the CTC decoder, when compounded with an external language model and trained on both public and internal data, outperforms all the others in accuracy and computational complexity. Unlike the more common Transformer-based models, this architecture can handle inputs of arbitrary length, a requirement for universal line recognition. Using an internal dataset collected from multiple sources, we also expose the limitations of current public datasets in evaluating the accuracy of line recognizers, as the relatively narrow image width and sequence length distributions do not allow to observe the quality degradation of the Transformer approach when applied to the transcription of long lines.


翻译:在本文中,我们研究了文本线识别问题。与大多数针对现场文本或手写文件等特定领域的方法不同,我们调查了开发一个通用结构以从任何图像中提取文字而不论其来源或输入模式如何的一般问题。我们考虑了两个解码组(同步体时空分类和变换器)和三个编码模块(双向LSTMS、自控和GRCLs)以及三个编码模块(双向LSTMS、自控和GRCLs),并进行了广泛的实验,以比较其在广泛使用的现场和手写文本公共数据集中的准确度和性能。我们发现,迄今为止文献中很少注意的组合,即自控编码器与CTC解码器相结合,再加上外部语言模型和在公共及内部数据方面受过培训的组合,在准确性和计算复杂性方面优于所有其他模块。与更常见的基于变码模型不同,这一结构可以处理任意长度的投入,这是普遍识别线条的要求。我们还发现,在评估线条方法的精确度方面,目前公共数据集在评估线条码的准确性方面受到的局限性,在比较狭长的分布时,可以观察到变式质量的分布的分布可以用来测量到较窄的分布到相对的深度。

1
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
157+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
8+阅读 · 2019年10月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
已删除
将门创投
7+阅读 · 2018年12月12日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
Arxiv
3+阅读 · 2020年9月30日
Arxiv
20+阅读 · 2020年6月8日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
已删除
将门创投
7+阅读 · 2018年12月12日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
相关论文
Top
微信扫码咨询专知VIP会员