ICCV2019 | 百度&港大提出CSVT：大规模弱标注中文场景文本数据集及一种新的弱监督端到端文本识别新方法

2019 年 11 月 23 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文授权转载自：CSIG文档图像分析与识别专委会

作者：刘家铭、孙逸鹏

本文介绍来自百度的一篇ICCV 2019论文“Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning”。该论文主要针对中文场景文字数据标注难、成本高的问题，构建一个新的大规模中文街景集合，包括部分精标注+大量弱标注的场景文字数据，同时设计全监督+弱监督的部分监督端到端文字识别算法，性能超越全监督端到端训练方法，同时大幅降低额外训练数据标注成本。对该集合进一步扩充后的ICDAR 2019-LSVT竞赛集合及榜单已开放，开发者可直接提交新结果进行榜单评测更新。

1、研究背景

计算机视觉领域场景文字识别是重要的AI技术之一，打通了图像和文本的信息鸿沟，拥有广泛的应用场景和使用价值，近些年来受到学术界和工业界的广泛关注。现有学术界研究方法主要以研究英文文字检测识别为主，在视觉技术领域，东方文字，例如：中文场景文字识别问题尚未得到充分研究和关注。现有业界最好的文字检测识别方法应用中文文字识别场景，存在明显的性能效果损失现象。由于中文场景词表规模远大于拉丁字符类别，训练数据中大部分类别样本数量有限，同时不同类别之间存在长尾分布不均的问题，因此，中文文字识别需要更多的训练样本，具有极大的识别难度和挑战。标注困难高成本问题制约了真实场景数据的大规模扩增及数据训练。

针对上述问题，围绕中文大类别识别场景，我们引入弱标注数据的概念，针对街景场景只标注关键词信息，忽略非重要信息而无需精确位置标注，克服大量全监督训练数据标注高成本、低效率问题。

1）我们构建一个新的大规模中文街景文字数据集（C-SVT），总计43万张街景图片数据，其中包括3万张精标（标注所有文字框的位置+文字内容）和40万弱标注数据（仅标记图片中感兴趣文字内容），数据量是已有公开中文场景文字集的14倍及以上。

2）针对部分监督训练问题，本文提出一种端到端-部分监督学习算法，实现端到端中文场景文字识别。充分利用大类弱标注数据，设计在线匹配模块在弱标注图片中定位匹配度最大的候选文字框，实现精标注、弱标注数据同时端到端训练。

3）基于端到端-部分监督学习方法，弱标注成本是精标注的1/90。弱标注数据量从零扩增到40万，CSVT测试集上单模型平均编辑距离AED错误率相对降低20%，显著优于全监督端到端训练效果。同时，端到端部分监督学习算法ICDAR2017-RCTW中文数据集、ICDAR2015公开英文数据集上，端到端评测单模型效果取得SOTA结果。

图1 全监督端到端（End2End）vs. 部分监督端到端识别（End2End-PSL）

2、中文街景数据集CSVT

数据集分包括3万精标注及40万弱标注数据。在完整标注部分中，所有词条的水平词条、竖直词条位置标注为四点，所有弯曲文字标注为多边形，采用多点进行位置标注。

图2 精标注样本示例（ 4点/多点位置标注 + 文字内容）

图3 弱标注样本示例（只标注关键信息文字，例如：地标名称，无需位置标注）

精标注数据按4:1:1 比例划分出训练、校验及测试集，其中水平、竖直、弯曲任意形状文字条的比例保持接近，同时类别间分布也保持接近。详细统计如表1所示。在部分标注样本中包括中文字符500万余个，可用来提升端到端的模型识别效果。

表1 精标注部分数据划分及统计信息

表2 文字识别数据集对比

3、部分监督学习的端到端文字识别

为了公平体现出基于弱监督的部分监督训练相比全监督端到端识别的收益，我们将简单易用的端到端全监督框架作为Baseline基准，包括：ResNet-50+FPN共享特征作为多任务训练主干，4点FCN位置回归作为检测分支，获取文字候选Proposal位置。通过透视RoI变换操作从主干特征中的文字Proposal区域变换为高度固定、变长的特征图

，作为RNN+Attention序列识别分支的输入。对于弱监督数据，通过设计在线候选匹配Online Proposal Matching（OPM）分支计算给定的弱标GT文字

与后续区域特征的相似度，对匹配度最大的候选特征Proposal计算识别Loss，得到弱标注样本的识别分支Loss为

，实现弱标注数据训练过程中的反向计算。

图4 部分监督学习的端到端文字识别训练框架（左图）；在线候选匹配模块 OPM（右图所示）.

最终将全监督训练部分Loss和弱监督部分进行累加得到

，完成对整个部分监督训练网络Loss优化

更复杂的主干网络、精度更高的检测分支、识别分支特征增强都可以直接在该框架中直接升级，获得额外的叠加效果收益。

4、实验结果及可视化结果

C-SVT数据集上评估现有算法性能，结果如下表所示。其中‘End2End-PSL’指提出的部分监督端到端学习算法，随着更多弱标注数据加入，端到端平均编辑距离AED从19.68降低到17.59。在考虑标注成本情况下，400k弱标数据成本与4.4k精标注成本相当，对比增加400k弱标数据及4.4k精标数据，部分监督端到端‘End2End-PSL’相比全监督‘End2End’识别端到端F-score提升4.03%，平均编辑距离AED绝对降低1.47。

表3 CSVT数据集结果对比

图5 全监督端到端（第一行：End2End）vs. 部分监督端到端识别效果（第二行：End2End-PSL）

图6 绿色框为给定GT弱标输入时正确匹配到的文字框，红色框为未匹配到的文字候选框.

在ICDAR2017-RCTW中文数据集上，端到端模型通过部分监督学习方法在端到端效果上可以进一步提升，如表3所示。‘End2End-PSL’相比‘End2End’平均编辑距离AED指标上绝对降低3.3。多尺度测试降低到22.1，取得公开单模型SOTA效果。

表4 ICDAR 2017-RCTW数据集结果对比

端到端部分监督训练算法同样在英文集合也有明显收益，在ICDAR 2015英文数据上，采用ICDAR 2015训练集作为精标数据，将COCO-Text作为弱标训练数据（存在较多标注错误，原始位置标注不精确，弱标注训练无需位置信息），单模型单尺度效果在检测、端到端识别上都有明显提升达到SOTA效果。

表5 ICDAR 2015数据集结果对比

5、总结

本文建立了一个新的大规模中文街景数据集C-SVT，首次提出部分监督文字数据标注概念，数据规模业界最大。为了扩增真实训练样本量同时保持标注成本可控，采用弱标注方式标注400k张样本，并提出一种部分监督学习的端到端文字识别可训练方法，可在线挖掘弱标注数据实现精标+弱标数据在一个网络中的同步训练。C-SVT数据上的部分监督训练效果明显优于端到端全监督训练效果，在ICDAR2017-RCTW、ICDAR 2015中英文公开集合取得单模型SOTA效果。

六、相关资源

论文地址：Y. Sun, et al, Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning, in Proc. of ICCV 2019, https://arxiv.org/abs/1909.07808

七、ICDAR 2019数据集

[1] CSVT数据集是ICDAR 2019-LSVT大规模街景文字竞赛的子集，LSVT进一步扩增精标数据到5万，数据集下载、榜单提交结果地址 http://rrc.cvc.uab.es/?ch=16

[2] Y. Sun, et al，ICDAR 2019 Competition on Large-scale Street View Text with Partial Labeling-LSVT，in Proc. of ICDAR 2019 Oral, https://arxiv.org/abs/1909.07145

[3] ICDAR 2019-ArT任意形状文字集中的中文部分数据来自CSVT数据集，竞赛数据下载、榜单提交结果地址见http://rrc.cvc.uab.es/?ch=14

[4] C. Chng, et al, ICDAR 2019 Robust Reading Challenge on Arbitrary-Shaped Text-ArT，in Prof. of ICDAR 2019 Oral, https://arxiv.org/abs/1909.07741

参考文献

[1] Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan, Kaiming He, Manohar Paluri, Yixuan Li, Ashwin Bharambe, and Laurens van der Maaten. Exploring the limits of weakly supervised pretraining. ECCV, 2018.

[2] Xinyu Zhou, et al. EAST: An efficient and accurate scene text detector. In Proc. of CVPR, 2017

[3] Baoguang Shi et al. ICDAR2017 competition on reading Chinese text in the wild (RCTW-17). ICDAR, 2017.

[4] Xuebo Liu et al. FOTS: Fast oriented text spotting with a unified network. In Proc. of CVPR, 2018

撰稿：刘家铭、孙逸鹏编排：高学

审校：殷飞发布：金连文

重磅！CVer-场景文本识别交流群已成立

扫码添加CVer助手，可申请加入CVer-目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪&去雾&去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索等群。一定要备注：研究方向+地点+学校/公司+昵称（如场景文本识别+上海+上交+卡卡）