论文推荐|[CVPR 2020]增广学习:面向文本行识别的网络优化协同数据增广方法

2020 年 4 月 9 日 专知


本文简要介绍CVPR 2020录用论文“Learn to Augment: Joint DataAugmentation and Network Optimization for Text Recognition”的主要工作。该论文针对训练数据的几何多样性不足的问题,提出了一种面向文本行图像的几何增广方法,并联合识别器协同训练,以提高识别器的泛化性能。

 
一、研究背景

风格多变的手写文本和形状各异的场景文本,因为几何形变问题,给识别任务带来巨大的挑战[1] [2] 。在深度学习时代,为了训练一个鲁棒的识别器,大量的训练样本是必不可少的。相对于数据收集和标注来说,数据增广的成本更低,是值得选择的初步解决方案。然而,如Figure 1(a)所示,现有的几何变换方法,如旋转、缩放和透视变换,对于文本行图像来说过于简单。一张文本图像通常包含若干个字符,更合理的增广方式应该是增加各个字符的几何多样性。因此,该论文提出一种面向文本行图像的几何增广方法,可以结合识别器联合训练。据我们了解,这有可能是第一个针对文本行图像设计的联合学习优化几何增广方法。



二、方法简述

给定一张文本行图像,几何增广的目的是增加每个字符的几何多样性。从这个角度出发,作者在图像上初始化更多的控制点,并移动这些控制点以扭曲图像,如Figure 3所示。


 

在几何变换方法的选择上,作者对比和讨论了两种常用的图像变换方法[3] :Similarity Transformation和Rigid Transformation。如Figure 4所示,对于普通物体来说,Rigid Transformation可以保持物体的真实感,而文本行图像的增广则优先考虑变换的灵活性,所以Similarity Transformation更合适。后续的实验也证明了这一点。

 


    Similarity Transformation的流程如下。给定图像上的点u,通过线性变换M得到新的位置,

其中,p*和q*分别是控制点移动前和移动后的加权质心,

权重的物理意义为:离点u越近的控制点,对u影响越大。定义为

最后,最小化

即可得到唯一解。
在上述设计的基础上,作者考虑联合识别器协同训练。如Figure 2所示,作者设计了一个Agent模块,用于预测控制点的移动方向。Agent是一个轻量化神经网络,优化的目标为产生更难的样本,以提高识别器的错误率。这里的错误率由编辑距离来衡量。


本文使用启发式搜索算法,对困难样本进行挖掘,并把更有效的增广方式传递给Agent学习。所设计的算法流程如下:


四、实验结果

首先作者探究了训练数据量、Patch数量和控制点移动距离范围对性能的影响。实验结果如Table 2-4及Figure 5所示。



 


在小训练集的设置下,该论文提出的增广方法优于现存的增广方法,带来了显著的提升(见Table 2)。在该论文的实验设置下,作者发现N=3和R=10可以得到最优效果(Table 3-4),并把该设置沿用到后续实验中。

随后作者结合主流识别器,在场景文本和手写文本上验证了该增广方法的有效性。实验结果如Table 5(场景文字识别)和Table 6(手写文本行识别,表中的评价指标分别是单词识别错误率WER及字符识别错误率CER,越低越好)所示。




值得注意的是,该论文提出的方法作为一个元框架(Metaframework),可以和更多的增广方法相结合,例如CVPR 2019的AFDM方法[1] ,可以得到更好的效果(见Table 6-7所示)。

 
五、总结和展望

该论文提出了一种面向文本行图像的几何增广方法,和简单的几何变换不同,这种方法可以丰富各个字符的几何多样性。作者进一步提出一种可学习增广方式,可以联合识别器端到端训练。这是针对文本行图像增广的初步探索,该问题仍然有很大的研究空间。文本图像的合成和增广,作为文本识别领域的特色问题,值得我们进一步讨论和研究。


六、相关资源  
  • 论文地址:https://arxiv.org/abs/2003.06606

  • 数据增广工具包下载地址: (1)https://github.com/Canjie-Luo/Text-Image-Augmentation (2)https://github.com/HCIILAB/Text-Image-Augmentation

 
参考文献

[1] Bhunia A K, Das A, Bhunia A K, et al. “Handwriting recognition in low-resource scripts using adversarial learning.” CVPR, 2019,pp. 4767-4776.

[2] B. Shi, M. Yang, X. Wang, P. Lyu, C. Yao, and X. Bai, “ASTER: AnAttentional Scene Text Recognizer with Flexible Rectification.” IEEE TPAMI,vol. 41, no. 9, pp. 2035–2048, Sep. 2019.

[3] S. Schaefer, T. McPhail, and J.Warren, “Image deformation using Moving Least Squares.” ACM TOG, 2006, vol. 25,no. 3, pp. 533–540.



原文作者:Canjie Luo, YuanzhiZhu, Lianwen Jin,Yongpan Wang

 

撰稿:罗灿杰

编排:高   学

审校:连宙辉

发布:金连文


免责声明: 1 )本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。( 2 )本文观点不代表本公众号立场。  

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
22

相关内容

[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
31+阅读 · 2020年1月10日
【浙江大学】对抗样本生成技术综述
专知会员服务
91+阅读 · 2020年1月6日
 图像内容自动描述技术综述
专知会员服务
85+阅读 · 2019年11月17日
科研人员提出海量虚拟数据生成新方法
中科院之声
6+阅读 · 2019年9月25日
已删除
将门创投
6+阅读 · 2019年6月10日
CVPR 2019 Oral 论文解读 | 无监督域适应语义分割
AI科技评论
49+阅读 · 2019年5月29日
“弄假成真”:基于对抗学习的数据增广方法
科技导报
5+阅读 · 2018年10月8日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning
Arxiv
8+阅读 · 2018年1月25日
VIP会员
Top
微信扫码咨询专知VIP会员