Leveraging the characteristics of convolutional layers, image classifiers are extremely effective. However, recent works have exposed that in many cases they immoderately rely on global image statistics that are easy to manipulate while preserving image semantics. In text recognition, we reveal that it is rather the local image statistics which the networks overly depend on. Motivated by this, we suggest an approach to regulate the reliance on local statistics that improves overall text recognition performance. Our method, termed TextAdaIN, creates local distortions in the feature map which prevent the network from overfitting to the local statistics. It does so by deliberately mismatching fine-grained feature statistics between samples in a mini-batch. Despite TextAdaIN's simplicity, extensive experiments show its effectiveness compared to other, more complicated methods. TextAdaIN achieves state-of-the-art results on standard handwritten text recognition benchmarks. Additionally, it generalizes to multiple architectures and to the domain of scene text recognition. Furthermore, we demonstrate that integrating TextAdaIN improves robustness towards image corruptions.


翻译:利用卷变层的特征,图像分类者是极为有效的。然而,最近的工作暴露出,在许多情况下,他们往往依赖在保存图像语义的同时容易操作的全球图像统计。在文本识别中,我们发现网络过分依赖的只是本地图像统计。我们为此建议了一种方法来规范对本地统计数据的依赖,从而改进了文本识别的总体性能。我们称之为TextAdaIN的方法在功能图中造成了局部扭曲,使网络无法过度适应本地统计数据。我们这样做的方式是故意对微型批量样本之间精细的特征统计进行不匹配。尽管TextAdaIN的简单性,但广泛的实验表明它与其他更为复杂的方法相比是有效的。TextAdaIN在标准手写文本识别基准上实现了最新的最新结果。此外,它概括了多个架构和现场文本识别领域。此外,我们证明,将TextAdaIN结合了图像对图像腐败的稳健性。

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
已删除
将门创投
4+阅读 · 2017年12月12日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
11+阅读 · 2018年10月17日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
相关VIP内容
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
已删除
将门创投
4+阅读 · 2017年12月12日
Top
微信扫码咨询专知VIP会员