Linguistic knowledge is of great benefit to scene text recognition. However, how to effectively model linguistic rules in end-to-end deep networks remains a research challenge. In this paper, we argue that the limited capacity of language models comes from: 1) implicitly language modeling; 2) unidirectional feature representation; and 3) language model with noise input. Correspondingly, we propose an autonomous, bidirectional and iterative ABINet for scene text recognition. Firstly, the autonomous suggests to block gradient flow between vision and language models to enforce explicitly language modeling. Secondly, a novel bidirectional cloze network (BCN) as the language model is proposed based on bidirectional feature representation. Thirdly, we propose an execution manner of iterative correction for language model which can effectively alleviate the impact of noise input. Additionally, based on the ensemble of iterative predictions, we propose a self-training method which can learn from unlabeled images effectively. Extensive experiments indicate that ABINet has superiority on low-quality images and achieves state-of-the-art results on several mainstream benchmarks. Besides, the ABINet trained with ensemble self-training shows promising improvement in realizing human-level recognition. Code is available at https://github.com/FangShancheng/ABINet.


翻译:然而,如何在端至端深端网络中有效示范语言规则仍然是一项研究挑战。在本文件中,我们认为,语言模型的有限能力来自:(1) 隐含语言模型;(2) 单向特征代表;(3) 具有噪音输入的语言模型。相应地,我们提议采用自主、双向和迭代的ABINet,用于现场文本识别。首先,自主建议阻止视觉和语言模型之间的梯度流动,以明确执行语言模型。第二,由于语言模型是以双向特征代表为基础而提出的,因此一个新的双向双向阴云网络(BCN)是新的双向的。第三,我们建议对语言模型进行迭代校正的方式,以有效减轻噪音输入的影响。此外,根据迭代预测的合用,我们提议一种自我培训方法,可以有效地从未贴标签的图像中学习。广泛的实验表明,ABINet在低质量图像上占有优势,并在几个主流基准上取得状态-艺术成果。此外,ABIBNet在可提供读的A/ShangA自我培训的高级认识中,在可实现的ADM/SAmb/ABBA ALA ALADA/MADALADADRADADAGADLADLADADAG/MAMAMADRADLADRADRADLAGRADIGIDOLADADADADADADADADADADADADADADOLADADOLADOLADADAGAGAGAGAGADOL。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年3月7日
专知会员服务
60+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
163+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
LibRec 精选:你见过最有趣的论文标题是什么?
LibRec智能推荐
4+阅读 · 2019年11月6日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【ECCV2018】24篇论文代码实现
专知
17+阅读 · 2018年9月10日
已删除
将门创投
5+阅读 · 2018年7月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
20+阅读 · 2020年6月8日
Arxiv
4+阅读 · 2019年8月7日
VIP会员
相关资讯
LibRec 精选:你见过最有趣的论文标题是什么?
LibRec智能推荐
4+阅读 · 2019年11月6日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【ECCV2018】24篇论文代码实现
专知
17+阅读 · 2018年9月10日
已删除
将门创投
5+阅读 · 2018年7月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员