【CVPR 2020】SEED:用于场景文本识别的语义增强编解码器框架

2020 年 6 月 5 日 专知

本文简要介绍2020年被CVPR录用论文“SEED:Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition的主要工作。该论文通过引入全局语义信息来解决场景文本识别中的低质量文本的识别。以下内容沿用文章对该方法的缩写:SEED


一、研究背景

Fig.1. The first column shows the examples of some challenging scene text including image blur, occlusion, and background interference. The second column is the results of the existing encoder-decoder framework and the third column gives the predictions of our approach.
 

随着模型的不断迭代,场景文本识别器在许多规则文本上已经具有足够的鲁棒性。而不规则文本的识别在纠正、多方向编码等模块的帮助下也取得了长足的发展,但是很少有学者会关注到低质量文本识别的问题。面对模糊、遮挡、字体残缺等情况,现有的识别器很难从局部图像特征中识别出字符,因此,这篇文章引入了一个全局的语义信息来指导字符的识别,一些识别样例如Fig.1所示。

 
二、SEED原理简述

Fig.2. Overall architecture.
 

Fig.2SEED的整体结构。SEED可以简单的分成四个部分:第一部分(Encoder)利用CNN以及RNN进行特征提取;第二部分(Semantic Module)利用编码之后的特征进行全局语义信息预测;第三部分(Pre-trained Language Model)用来监督全局语义信息的预测;第四部分(Decoder)是Attention-based文本预测模块。

显而易见,文章的核心内容是围绕Semantic Module展开的。Semantic Module利用来自EncoderRNN的每个时刻输出特征,并将这些特征Flatten为一维向量I,然后通过两层全连接层预测出全局语义信息S

其中W1W2b1b2皆为可训练参数,σ是激活函数ReLU

该全局语义信息在Decoder阶段将会被用来初始化RNN的隐藏层状态。因此对于Decoder中每个时刻的预测都能够获得到全局语义信息的指导。

同时,在训练阶段,文章引用了FastText[3]的预训练模型来监督全局语义信息S的预测。FastText[3]预训练模型对每一个标签生成一个词向量,相似语义的标签生成的词向量会较为相近。在FastText[3]模型中,词向量由子词向量以及它自身组成,因而可以节省编码维度,可以编码不在词库中的单词。文章使用了Cosine相似度损失函数来监督全局语义信息S的预测,其中emFastText[3]模型对标签编码的词向量。

而整个网络的损失函数由识别的交叉熵损失函数和Cosine相似度损失函数构成:
除了对于DecoderRNN的初始化,模型的EncoderDecoder都可以直接根据SOTA模型来设置,文章中有用到的SOTA模型主要是ASTER[1]SAR[2]
 
三、主要实验结果及可视化效果

TABLE 1 Performance comparison between different strategies. WES represents word embedding supervision. INIT represents initializing the state of the GRU in the decoder. ASTER-r represents the model re-trained by ourselves.

TABLE 1中的结果是在ASTER[1]模型的基础上整合SEED部件的消融实验,INIT是有初始化DecoderRNN,而WES是有预训练的FastText[3]模型的监督。二者单独使用对几个数据集提升不大,甚至可能会更差。二者的组合使用能够有较大的提升。


Fig.3. Visualization of cosine similarity of the predicted semantic information from the image w.r.t the word embedding of the words from lexicons. Larger value means more similar semantics.
 

Fig.3 展示了预测的全局语义信息与一些单词的cosine相似性。可以发现,全局语义信息与语义相近单词的向量具有比较强的相似性,对于结构相似,语义相差甚远的单词则相似性较低,由此也印证了模型的纠错功能。

 
TABLE 2 Lexicon-free performance on public benchmarks. Bold represents the best performance.Underline represents the second best result. * indicates using both word-level and character-level annotations to train model.
 
TABLE 3 Visualization of the recognition results on the two shrink datasets.  Red: wrong results;Green: correct results.

Fig.4. Examples of low-quality images and recognition results in four methods. Red characters are the wrong results, and green ones are the correct.
 

SE-ASTERSE-SAR分别是在ASTER[1]SAR[2]SEED的整合。TABLE 2展示了SE-ASTER与其他SOTA识别器的对比,可以看到SE-ASTER的性能具有一定的竞争力。TABLE 3 Fig.4是一些识别的可视化,可以看到,SE-ASTERSE-SAR是能够对低质量文本起到一定作用的。 

 
四、总结及讨论
  1. SEED使用了全局语义信息来初始化Decoder的RNN,这能够提升模型对于低质量文本的鲁棒性。

  2. 将SEED与ASTER模型相结合,可以达到SOTA的效果。 

 
五、相关资源
  • SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition论文地址:https://arxiv.org/pdf/2005.10977.pdf

  • Aster: Anattentional scene text recognizer with flexible rectification论文地址:https://www.vlrlab.net/representatives/6

  • Show, attend andread: A simple and strong baseline for irregular text recognition论文地址:https://arxiv.org/pdf/1811.00751.pdf

  • Enriching Word Vectors with Subword Information论文地址:https://arxiv.org/pdf/1607.04606.pdf

 

参考文献

[1] Shi B, Yang M, Wang X, et al. Aster: An attentional scene text recognizer with flexible rectification[J]. IEEE transactions on pattern analysis and machine intelligence, 2018.

[2] Li, H., Wang, P., Shen, C., Zhang, G., 2018. Show, attend andread: A simple and strong baseline for irregular text recognition,in,in:Thirty-Third AAAI Conference on Artificial Intelligence.

[3] Bojanowski P , Grave E , Joulin A , et al. Enriching Word Vectors with Subword Information[J]. Transactions of the Association for Computational Linguistics, 2017, 5:135-146.

[4] Qiao Z, Zhou Y, Yang D, et al. SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2020.  



原文作者:Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, Weiping Wang


撰稿:张家鑫

编排:高 学

审校:殷 飞

发布:金连文


免责声明: 1 )本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。( 2 )本文观点不代表本公众号立场。


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
21+阅读 · 2020年6月30日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
60+阅读 · 2020年6月25日
【SIGIR2020】用于冷启动推荐的内容感知神经哈希
专知会员服务
22+阅读 · 2020年6月2日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
CVPR 2019 | 微软亚洲研究院7篇精选论文解读
微软研究院AI头条
23+阅读 · 2019年6月18日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
论文解读 | 基于递归联合注意力的句子匹配模型
Arxiv
3+阅读 · 2018年5月20日
VIP会员
Top
微信扫码咨询专知VIP会员