CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第二期于2021年10月12日成功举行。本沙龙由中国图象图形学学会主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。本期活动邀请华南理工大学罗灿杰博士分享报告:数据困境下的文字识别——无标签图像去噪、自适应数据增广及手写样本合成。微沙龙活动在B站、中国图像图形学报视频号进行了同步直播,人气峰值近4000。
活动由华南理工大学张鑫副教授主持。来自华南理工大学的博士研究生罗灿杰做了题为“数据困境下的文字识别”的学术报告。报告首先介绍了数据驱动的深度学习时代背景,列举了场景文字和手写文字识别的三个挑战:(1)复杂的背景噪声;(2)几何形状和书写风格多样性;(3)书写语料局限性。报告重点从三个方面介绍数据困境下的方案:1)无标签的文本行图像去噪(发表于IJCV 2021国际期刊)。该方法利用注意力机制提取每个字符,与单字符模板进行生成对抗训练,从而去除背景噪声。同时该方法根据识别结果微调字符,从而生成更利于识别的图像,进一步降低识别难度;2)文本行图像的自适应增广(发表于CVPR 2020国际会议)。该方法使用多个控制点实现更灵活的弹性变换,并在训练过程中挖掘困难样本,丰富数据的多样性,提高识别器的稳健性;3)手写体的合成。相比标准字体,手写体合成的自由度更高,难度更大。报告通过Demo演示的形式,展现手写体合成的重要性,并对数据多样性进行分析。
报告嘉宾还回答了听众的问题,包括注意力机制在长文本上的定位精度问题、中文大类别挑战的问题、训练稳定性问题等。报告嘉宾号召广大同行共同解决中文识别问题,进一步完善中文社区的相关技术。
1. Separating Content from Style Using Adversarial Learning for Recognizing Text in the Wild
链接地址:https://arxiv.org/abs/2001.04189
2. Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition
链接地址:https://arxiv.org/abs/2003.06606
本次报告会获得了良好效果,我们期待更多优秀青年学子在文档图像领域取得研究进展,并在后续的沙龙报告会中踊跃参与、共同进步!