|[IEEE TIP 2020]EraseNet：端到端的真实场景文本擦除方法

2020 年 10 月 22 日 专知

本文简要介绍了最近被IEEE TIP 2020 录用的论文 “EraseNet：End-to-end Text Removal in the Wild”的相关工作。该论文主要针对场景文字擦除的问题，首先从已有的场景文字检测与识别的公开数据集收集图片，通过人工标注构建了文字擦除的数据库SCUT-EnsText，并提出了EraseNet文字擦除模型，可以在整图级别不需要文本位置信息的先验下对场景中的文字进行擦除，最后也在该数据集以及之前在[1]提出的合成数据集上与之前方法进行了实验对比，验证了我们方法的有效性，建立了场景文字擦除问题的基准(Benchmark)，以便于后续研究工作的开展。

一、研究背景

场景文字擦除在近几年得到了越来越多的关注，这项技术在隐私保护、视觉信息翻译和图片内容编辑等方面都有着很重要的作用。文字擦除不仅仅是给自然场景中的文字打上马赛克这样简单，而是要考虑在擦掉文字的同时保持文本区域背景的原特征，这就为这个任务带来了挑战。目前围绕这一课题学者们也提出了诸如SceneTextEraser[2]，EnsNet[1]，MTRNet[3]等文字擦除模型，但这些模型基本都是基于合成数据SynthText[4]以及少量真实数据进行训练，当这些算法应用到真实场景中可能不具备泛化能力。因此，为了促进文字擦除技术的发展，亟待建立一个场景文字擦除的数据库，提供可靠的数据和分析用以评价不同擦除模型的性能。今天介绍的文章提出了新的真实场景下的文字擦除数据集SCUT-EnsText，并提出了EraseNet模型，该方法在文字擦除任务中取得了不错的性能。

二、SCUT-EnsText数据集简介

图1 SCUT-EnsText数据集

图1展示了SCUT-EnsText的一些样本。这批数据主要采集自如ICDAR 2013，ICDAR 2015，SCUT CTW1500等公开数据集，数据来源如表格1所示。该数据集总共包含3562张场景图片，有着2w余个文本实例。这些文本涵盖中英文以及数字等不同字形，也将水平文本、任意四边形文本和曲线文本等考虑在内；同时考虑到背景复杂度对文字擦除的影响，也刻意挑选了不同背景、不同亮度的文本背景图片。这些特性增加了数据集的挑战性和对不同数据类型的适应性和泛化性。SCUT-EnsText训练集包含2749张图片，测试集813张图片，它为场景文字擦除任务建立了新的基准。

三、整图级别端到端文字擦除网络EreaseNet

这篇文章同时提出了一个端到端场景文字擦除模型，通过引入两阶段的编解码器（Coarse-to-refinement）以及一个额外的文本感知分支构建了文字擦除生成对抗网络EraseNet，模型的流程图如图2所示。

图2 端到端场景文字擦除模型流程图

1. 方法流程

生成器 EnsNet的输出很多时候存在擦除不彻底的问题，比如文本只擦了一部分或者会留有明显的文本轮廓，于是EraseNet在EnsNet生成器的基础上额外加了一个编解码网络作为对第一阶段输出结果的进一步微调（Refinement），训练的时候会对两个阶段的输出都进行有效的监督以确保生成图片的质量。此外，考虑到整图级别的端到端文字擦除会存在文本遗漏的问题，一个简单直接的想法便是额外加入一个文本感知分支，将网络作为一个多任务学习的模型，在进行擦除的同时能比较准确的定位文字区域的位置，对于这个分支，考虑到样本不均衡的问题我们使用Dice Loss去优化，Dice Loss的定义如下：

判别器为了保证生成器输出结果的质量(文字擦除区域的质量以及该区域与非文本背景区域的连续性等)，本文使用了局部-全局（local-global）FCN作为判别器。它最终将全局和局部的特征Patch拼接在一起进行真或假的判定。

考虑到生成对抗网络（GAN）训练的不稳定性（如模式坍塌和不收敛的问题），EraseNet使用基于谱归一化（SN）[5]的GAN（SN-Patch-GAN）为基本网络框架，谱归一化通过对每一层网络的权重矩阵的谱范数约束来满足Lipschitz条件，以增强GAN训练的稳定性。最终GAN的损失函数形式如下：

2. 训练损失函数的设计

除了上述介绍的Dice Loss和Ganloss，本文还引入了Local-aware Reconstruction Loss， Content Loss（包含Style Loss [6]和Perceptual Loss [7]）。

Local-aware reconstruction loss

M代表训练为输入的文本Mask，

和

分别代表Coarse阶段输出和最终微调后的输出。

最后EraseNet的损失函数形式为：

四、实验结果

实验主要在SCUT-EnsText和EnsNet[1]提出的8800张（8000用于训练，800测试）合成数据集上进行。

A．对于各模块的消融实验结果如下：

图3

量化结果对比和可视化结果图都验证了EraseNet各模块的有效性以及Content Loss在文字擦除任务中的积极作用。

B．与之前SOTA方法的对比实验结果如下，其中图表IV和V为SCUT-EnsText的结果，图5为合成数据的结果：

图4

图5

C．此外，还进行了与一些Image Inpainting方法和弱监督方法的对比，结果如图7所示。这也论证了EraseNet的有效性。D/I Weakly表示先检测后用预训练的Image Inpainting模型进行文字区域填补。

五、总结与讨论

本文提出了一个真实场景下用于场景文字擦除的数据集，能够用于文字擦除以及后续进行文本编辑等方面的研究。
本文构建了一个端到端场景文字擦除的网络EraseNet，它可以在整图级别不需要文本位置信息的先验下对场景中的文字进行擦除，并能取得较好的性能。

六、相关资源

EraseNet论文链接：https://ieeexplore.ieee.org/document/9180003
EraseNet代码：https://github.com/lcy0604/EraseNet
SCUT-EnsText数据集链接：https://github.com/HCIILAB/SCUT-EnsText

参考文献

[1] S. Zhang, Y. Liu, L. Jin, Y. Huang, andS. Lai, “Ensnet: Ensconce text in the wild,” in Proceedings of AAAI, vol. 33,2019, pp. 801–808.

[2] T. Nakamura, A. Zhu, K. Yanai, and S.Uchida, “Scene text eraser,” in Proceedings of ICDAR, vol. 01, 2017, pp.832–837.

[3] O. Tursun, R. Zeng, S. Denman, S.Sivapalan, S. Sridharan, and C. Fookes, “Mtrnet: A generic scene text eraser,”in Proceedings of ICDAR, 2019, pp. 39–44.

[4] A. Gupta, A. Vedaldi and A. Zisserman,"Synthetic Data for Text Localisation in Natural Images," 2016IEEE Conference on Computer Vision and Pattern Recognition (CVPR), LasVegas, NV, 2016, pp. 2315-2324.

[5] T. Miyato, T. Kataoka, M. Koyama, andY. Yoshida, “Spectral normalization for generative adversarial networks,” in Proceedings of ICLR, 2018.

[6] L. A. Gatys, A. S. Ecker, and M.Bethge, “Image style transfer using convolutional neural networks,” in Proceedings of CVPR, 2016, pp. 2414–2423.

[7] J. Johnson, A. Alahi, and L. Fei-Fei,“Perceptual losses for real-time style transfer and super-resolution,” in Proceedings of ECCV, 2016, pp. 694–711.

原文作者: Chongyu Liu, Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Canjie Luo,Yongpan Wang

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

相关内容

TIP

关注 4

IEEE图像处理事务涵盖了新颖的理论，算法和体系结构，可在各种应用中形成、捕获、处理、通信、分析和显示图像、视频和多维信号。感兴趣的主题包括但不限于数学、统计和感知建模、表示、形成、编码、过滤、增强、还原、渲染、半色调、搜索和分析图像、视频和多维信号。感兴趣的应用包括图像和视频通信、电子成像、生物医学成像、图像和视频系统以及遥感。官网地址：http://dblp.uni-trier.de/db/journals/tip/

【EMNLP2020】序列知识蒸馏进展，44页ppt

专知会员服务

39+阅读 · 2020年11月21日

【EMNLP2020最佳论文】无声语音的数字化发声

专知会员服务

12+阅读 · 2020年11月20日

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日