新视角:用图像分类来建模文字识别也可以SOTA!

2021 年 2 月 23 日 极市平台
↑ 点击 蓝字  关注极市平台

作者丨mileistone@知乎(已授权)
来源丨https://zhuanlan.zhihu.com/p/352348349?
编辑丨极市平台

极市导读

 

本文介绍了一个文字识别的新工作:CSTR,通过文字识别任务建模为图像分类,且不需要字符级别的标注。该模型像其他图像分类模型一样容易实现,因为是纯卷积所以训练、推理非常高效。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

我们最近做了一个文字识别的工作:CSTR: A Classification Perspective on Scene Text Recognition(https://arxiv.org/abs/2102.10884),简单介绍如下。

当前文字识别有两种建模视角:seq2seq-based和segmentation-based。

seq2seq-based的方法首先将图片encode为特征序列(比如CNN、RNN、Transformer encoder或者它们的组合),然后对特征序列进行decode(比如CTC、RNN、attention based RNN、Transformer decoder等)。

segmentation-based的方法首先定位出字符的位置,然后识别出各个位置的字符,最后将字符组合成字符串。

过去达到SOTA的文字识别方法大部分是seq2seq-based,但是seq2seq-based的方法pipeline复杂(大部分还需要STN模块来对图像进行矫正)。

segmentation-based的方法简洁很多,但是需要字符级别的标注,字符级别的标注成本高昂,在实际生产环境中不太可能使用这样精细的标注方式。

我们提出了一种图像分类的建模视角:classification-based。即将文字识别任务建模为图像分类,整体pipeline比segmentation-based的方法更简单,而且不需要字符级别的标注。classification-based的模型像其他图像分类模型一样容易实现,因为是纯卷积所以训练、推理非常高效。

CSTR模型结构,ϕ为end token

我们的classification-based模型即CSTR,在六个常用的公开数据集上的效果如下表所示。我们的模型没有STN模块,仅仅只有一个图像分类器,训练数据集为常用的两个合成的数据集SynthText (ST)和MJSynth (MJ),仅使用单词级别的标注,测试的时候没用任何TTA,整体效果基本达到SOTA。

CSTR与业界经典模型指标比较

代码将在我们的文字识别工具箱vedastr(https://github.com/Media-Smart/vedastr)中开源。

CSTR: A Classification Perspective on Scene Text Recognitionarxiv.org

https://arxiv.org/abs/2102.10884

Media-Smart/vedastr

https://github.com/Media-Smart/vedastr



推荐阅读


大年三十问候导师的后果...

2021-02-12

化繁为简,一张图看懂梯度、散度、旋度、Jacobian、Hessian和Laplacian

2021-02-15

擦除:提升 CNN 特征可视化的 3 种重要手段

2021-02-16



# CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart2)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~


△点击卡片关注极市平台,获取 最新CV干货

觉得有用麻烦给个在看啦~   
登录查看更多
0

相关内容

利用计算机自动识别字符的技术,是模式识别应用的一个重要领域。人们在生产和生活中,要处理大量的文字、报表和文本。为了减轻人们的劳动,提高处理效率,50年代开始探讨一般文字识别方法,并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期,出现了多种字体和手写体文字识别机,其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。70年代主要研究文字识别的基本理论和研制高性能的文字识别机,并着重于汉字识别的研究。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
[CVPR 2021] 序列到序列对比学习的文本识别
专知会员服务
28+阅读 · 2021年4月14日
【WSDM2021】弱监督下的分层元数据感知文档分类
专知会员服务
10+阅读 · 2020年11月16日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
深度序列学习助力文字识别
机器学习研究会
7+阅读 · 2017年12月7日
微信OCR(2)--深度序列学习助力文字识别
微信AI
9+阅读 · 2017年12月7日
深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)
数据挖掘入门与实战
16+阅读 · 2017年11月25日
Arxiv
0+阅读 · 2021年4月25日
Arxiv
3+阅读 · 2018年11月29日
VIP会员
相关VIP内容
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
[CVPR 2021] 序列到序列对比学习的文本识别
专知会员服务
28+阅读 · 2021年4月14日
【WSDM2021】弱监督下的分层元数据感知文档分类
专知会员服务
10+阅读 · 2020年11月16日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
Top
微信扫码咨询专知VIP会员