The prevalent perspectives of scene text recognition are from sequence to sequence (seq2seq) and segmentation. In this paper, we propose a new perspective on scene text recognition, in which we model the scene text recognition as an image classification problem. Based on the image classification perspective, a scene text recognition model is proposed, which is named as CSTR. The CSTR model consists of a series of convolutional layers and a global average pooling layer at the end, followed by independent multi-class classification heads, each of which predicts the corresponding character of the word sequence in input image. The CSTR model is easy to train using parallel cross entropy losses. CSTR is as simple as image classification models like ResNet \cite{he2016deep} which makes it easy to implement, and the fully convolutional neural network architecture makes it efficient to train and deploy. We demonstrate the effectiveness of the classification perspective on scene text recognition with thorough experiments. Futhermore, CSTR achieves nearly state-of-the-art performance on six public benchmarks including regular text, irregular text. The code will be available at https://github.com/Media-Smart/vedastr.


翻译:现场文本识别的流行视角是从序列到序列( seq2seq) 和分区。 在本文中, 我们提出了现场文本识别的新视角, 将现场文本识别作为图像分类问题进行模型。 根据图像分类的视角, 提出了一个场面文本识别模型, 名为 CSTR 。 CSTR 模型由一系列的卷变层和全球平均集合层组成, 最后由独立的多级分类头组成, 每个分类头都预测输入图像中的单词序列的相应特性。 CSTR 模型很容易使用平行的交叉加密损失来进行训练。 CSTR 模式和 ResNet\ cite{he2016deep} 图像分类模型一样简单, 便于执行, 完全进化的神经网络结构使得它能够高效地培训和部署。 我们通过彻底的实验来展示现场文本识别的分类视角的有效性。 Futermore, CSTRANS 将在包括常规文本在内的六个公共基准上实现近于状态的功能性表现。 代码将在 https://github. com/ Smartdia/Mealda/ mada/ muststra.

0
下载
关闭预览

相关内容

图像分类,顾名思义,是一个输入图像,输出对该图像内容分类的描述的问题。它是计算机视觉的核心,实际应用广泛。
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
6+阅读 · 2020年9月29日
Arxiv
20+阅读 · 2020年6月8日
SwapText: Image Based Texts Transfer in Scenes
Arxiv
4+阅读 · 2020年3月18日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
相关VIP内容
相关资讯
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员