CVPR 2020 | 眼见为虚：利用对抗文本图像攻击场景文本识别模型

2020 年 6 月 25 日 CVer

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

论文已上传，文末附下载方式

本文转载自：CSIG文档图像分析与识别专委会

本文简要介绍CVPR2020录用论文“What Machines See Is Not What They Get: Fooling Scene Text Recognition Models with Adversarial Text Images”的主要工作。该论文针对目前主流的场景文字识别（STR）模型，提出了一种高效的基于优化的对抗攻击方法。这是对抗攻击在场景文本识别模型中的首次尝试和研究。实验证明，该方法在7个真实数据和2个生成数据上大大降低了STR模型的识别性能，并成功攻击了百度OCR的识别引擎。

http://openaccess.thecvf.com/content_CVPR_2020/html/Xu_What_Machines_See_Is_Not_What_They_Get_Fooling_Scene_CVPR_2020_paper.html

一、研究背景

目前，对抗样本的研究主要集中在非序列任务 [1, 2]，比如目标检测、语义分割、人脸识别等。然而，对于STR这种序列任务，算法的安全性和可靠性也是非常重要的，比如银行卡、身份证以及驾驶证的识别。但是针对STR算法攻击的研究还很少。与一般分类模型的攻击相比， STR算法的攻击主要有三个难点：1）STR模型的输出是不定长的标签序列，而非序列任务的输出是单一标签。非序列任务常见的攻击策略仅涉及替换操作（改变Ground-truth）[3]，但是STR模型中的标签序列需要同时考虑字符级别和单词级别的操作（包括插入、替换和删除）。2）STR模型的攻击样本需要遵从一定的语义信息，输出的序列要对齐，并不是无意义的字符串。3）STR模型的编码器往往利用RNN结构来提取文本图像的上下文序列特征，而不是非序列任务中常用的CNN。本文从目前主流的STR模型（CTC-based And Attention-based）出发，研究其对应的攻击方法。进一步，本文将攻击分为有目标攻击和无目标攻击，有目标攻击是指攻击目标模型使它不仅识别错误并且识别成指定的序列标签，无目标攻击是指识别结果错误即可。Figure 1展示了一些在这两种类型攻击前后的结果。

二、原理阐述

STR模型的对抗攻击目标可以定义为找到一个与普通样本非常相似（人眼几乎不能发现差异）但识别结果却差异很大的样本。因此该文章假定输入的场景文本图片为x，相应的Ground-truth为l={l₀, l₁,…,l_T}，T为序列的长度。目标是找到对抗样本x’=x+δ（δ为对抗扰动）来欺骗STR模型，使得其预测出错误的序列l’。其对应的优化问题可以被描述为：

根据解码器（CTC-based解码器和Attention-based解码器）以及攻击方式（有目标攻击和非目标攻击）的组合，该方法有四种不同的形式。

1）攻击CTC-based STR模型

训练CTC-based识别模型 [4－6] 需要考虑所有有效对齐路径（π∈S（l））到ground-truth（l）的概率，对应的损失函数为：

a) 有目标攻击

有目标攻击要求模型预测出指定的目标序列。假设目标序列为l’={l₁’, l₂’, …, l_tk’,…, l_T’}，其中有k个字符被改变{l_t1’, l_t2’, …, l_tk’}。输入为x’，为了欺骗STR模型并预测出l’，有效对齐路径π’到{l₁’, l₂’, …, l_tk’}的概率要为最大：

所以，最终的目标函数为：

b) 非目标攻击

非目标攻击只要求模型预测出不为l的序列，因此只要使有效路径到l概率最小即可：

2）攻击Attention-based STR模型

Attention-based STR模型 [7, 8] 会根据t时刻之前（1, 2,…,t-1）的输出，预测出t时刻的输出，对应的损失函数为：

a) 有目标攻击

首先，假设只改变目标序列中的一个字符(lt’)，对应的损失函数为

将这个应用到一般情况，改变目标序列中k个字符，则l’可以分为k+1个部分，即1个没有改变的字符组和k个改变的字符。因为上列公式中第一项是常数项，所以损失函数可以改写为：

攻击方法的最终目标函数为：

b) 非目标攻击

当l中任意位置上的预测字符获得比较低的概率时，该字符就会受到攻击，模型会输出和l不同的序列l’：

所以，最终的目标函数为：

通过求解上述四个目标函数，可以得到相应的攻击样本，具体的流程如下图所示：

三、实验结果

作者对五个STR模型进行了有目标攻击和非目标攻击，并在7个真实数据集和2个生成数据集上做了测试，结果如下：

从表格中可以得出，目前主流的几个STR模型是非常脆弱的，几乎无法正确识别对抗样本，该攻击方法的成功率（SR）接近100%。除此之外，该方法还在真实系统百度OCR上进行了评估。在真实数据上选取800张图片，并用CRNN [4] 和TRBA [8] 的模型产生对抗样本，然后让百度OCR进行识别。识别结果如下：

不管是有目标攻击还是非目标攻击，成功率都在20%以上，由此证明了该攻击方法对百度OCR模型的有效性。

四、总结

本文首次提出了一种通用有效的STR攻击方法，并在目前主流的CTC-based和Attention-based STR模型中得到了验证。作者在7个真实数据、2个生成数据和真实STR系统上对该方法进行测试。结果显示，该攻击方法几乎完全欺骗了5个SOTA的STR模型，同时在商业STR系统上也显示出较高的攻击性能。

参考文献

[1] Chaowei Xiao, Dawei Yang, Bo Li, Jia Deng, and Mingyan Liu. Meshadv: Adversarial meshes for visual recognition. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR, pages 6898–6907, 2019.

[2] Cihang Xie, Jianyu Wang, Zhishuai Zhang, Yuyin Zhou, Lingxi Xie, and Alan L. Yuille. Adversarial examples for semantic segmentation and object detection. In IEEE International Conference on Computer Vision, ICCV, pages 1378–1387, 2017.

[3] Xiaoyong Yuan, Pan He, and Xiaolin Andy Li. Adaptive adversarial attack on scene text recognition. CoRR, abs/1807.03326, 2018.

[4] Baoguang Shi, Xiang Bai, and Cong Yao. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Trans. Pattern Anal. Mach. Intell., 39(11):2298–2304, 2017.

[5] Fedor Borisyuk, Albert Gordo, and Viswanath Sivakumar. Rosetta: Large scale system for text detection and recognition in images. In ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD, pages 71–79, 2018.

[6] Wei Liu, Chaofeng Chen, Kwan-Yee K.Wong, Zhizhong Su, and Junyu Han. Star-net: A spatial attention residue network for scene text recognition. In British Machine Vision Conference, BMVC, 2016.

[7] Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. Robust scene text recognition with automatic rectification. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR, pages 4168–4176, 2016.

[8] Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis. In IEEE International Conference on Computer Vision, pages 652–661, 2019.

原文作者：X ing Xu, Jiefu Chen, Jinhui Xiao, Lianli Gao, Fumin Shen, Heng Tao Shen

撰稿：李菁 | 编排：高学

审校：殷飞 | 发布：金连文

免责声明： （ 1 ）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（ 2 ）本文观点不代表本公众号立场。

论文下载

在CVer公众号后台回复：0625，即可下载本论文

重磅！CVer-OCR交流群成立

扫码添加CVer助手，可申请加入CVer-OCR 微信交流群，目前已满400+人，旨在交流OCR、场景文本检测、场景文本识别等。

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如OCR+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群