面向图像数据的对抗样本检测与防御技术综述

对抗样本是当前深度学习神经网络研究的热点问题．目前,对抗样本技术的研究主要分为２方面:生成攻击、检测防御．在总结对抗样本生成攻击技术的基础上,面向图像数据的对抗样本检测与防御技术综述从对抗样本的检测与防御的角度对面向图像数据的对抗样本防御技术进行了总结．综述从特征学习、分布统计、输入解离、对抗训练、知识迁移及降噪６个方面将检测与防御技术进行归类,介绍检测与防御技术的演进,分析其特点、性能,对比不同技术的优缺点,给出了检测效果和防御效果的综合评价．最后对当前该领域的研究情况进行了总结与展望。深度神经网络(deepneuralnetwork,DNN)能处理复杂的科学问题,已成功应用于目标跟踪与检测[１]、文字处理[２]、语音处理[３]、图像识别[４]等领域．近期研究发现,DNN 模型很容易受到对抗样本的攻击,将对抗样本输入高准确率的 DNN 模型后,模型的准确率会明显降低[５]．目前,对抗样本的研究主要分为２方面:１)对抗样本生成技术;２)对抗样本检测与防御技术．由于对抗样本生成技术的对抗攻击会对 DNN 模型造成负面影响,尤其在医疗[６]、运输[７]等信息敏感领域,因此,对抗样本的检测与防御技术成为目前 DNN 安全的研究热点[８]．本文重点关注对抗样本检测与防御技术,描述其演进过程,并从特征学习、分布统计、输入解离、对抗训练、知识迁移和降噪等６个方面对检测与防御技术进行汇总归纳,分析对比每类技术的性能、优缺点,使读者对对抗样本的检测与防御机制有直观的了解．鉴于当前对抗样本的研究大多选择图像数据作为输入样本,本文的讨论也集中于图像处理领域．

１对抗样本概述

对抗样本是指在原始数据集中的样本中通过有目的地添加少量的扰动信息,使得基于 DNN 模型的系统出现误判的样本[５]．理论上,输入空间的某个邻域可以从不同的角度表征同一个对象,即输入空间的某邻域内的数据应有相同的输入标签和统计分布．对抗样本的发现否定了这一推测．Szegedy 等人[５]发现,被神经网络正确分类的原始样本添加了微小扰动后,神经网络对其的分类准确率显著下降．图１左图为 Goodfellow 等人[９]在ImageNet数据集上训练了 GoogLeNet模型,中间图为快速生成的对抗扰动,右图为添加扰动后的对抗样本,原模型将图像x 以置信度５７．７％判定为“熊猫”,在加入微小扰动后,模型以置信度９９．３％将其判定为“长臂猿”．对抗样本的成因主要有４种假说:盲区假说、线性假说、决策面假说、流形假说[８]．

２对抗样本生成技术

图２展示了对抗样本生成技术演进．对抗样本生成技术可分为黑盒攻击和白盒攻击２类,目前白盒攻击的成果更多,但以对抗样本的迁移性为基础的黑盒攻击更具有实际意义．白盒攻击中,基于梯度的算法为经典算法,随着神经网络的广泛应用,又出现了基于对抗式生成网络(generativeadversarial network,GAN)、针对语义图像分割、对象检测模型等生成技术．

３对抗样本检测与防御技术

对抗样本检测与防御技术分为检测与防御２部分,检测技术可以分为特征学习、分布统计、输入解离这３类,防御技术可以分为对抗训练、知识迁移、降噪这３类,如图５所示:

检测技术从早期的探索对抗样本与原始样本的特征或数字特征之间的区别,到近期的与防御技术相结合,通过解离输入将输入的某个特征或某部分作为检测器的输入,从而检测出对抗样本．最早的防御技术是对抗训练,但对抗训练依赖于训练数据集,所以会产生过拟合问题,可以通过知识迁移提升模型泛化能力．降噪是近期热门的防御技术,但降噪依赖于梯度掩蔽,这一问题尚未得到解决．

特征学习主要用于对抗样本检测,这种方法基于对抗样本与原始样本的不同特征,通过降维将高维的复杂数据转化为低维数据,从而降低检测难度．
分布统计的核心思想是利用对抗样本与原始样本的不同数字特征,通过检测输入是否符合原始样本的分布,从而判断输入是否具有对抗性．
输入解离是一种检测与防御相结合的方式,核心思想是通过分解输入,将其的某个特征或某部分作为检测器的输入,从而检测出对抗样本．
对抗训练法的核心思想在于将对抗样本加入模型训练集,从而提升模型的鲁棒性．不同对抗训练之间的差异主要在于生成训练数据的方式,因此产生数据集依赖,可以通过知识迁移技术提升模型的泛化能力．
知识迁移是一种能提升网络泛化能力的技术, 通过训练数据集以外的样本来平滑训练过程中学到的模型．最早运用这种技术的是 Hinton等人[２０]提出的防御蒸馏网络[２１],近期提出的SEIM 方法[３７]也用到了这一技术．
降噪的核心思想是:通过对对抗样本施加变换, 破坏添加的噪声,从而消除扰动的影响,提高分类器的准确性．根据神经网络的结构,降噪法可以２次细分为输入层降噪和隐藏层降噪２类,但无论是哪种降噪方法,都依赖于梯度掩蔽,这也意味着目前基于降噪技术的防御方法对 BPDA 等攻击方式都显示出脆弱性．

４对抗样本检测与防御技术评价

目前,检测技术的研究因在数理层面对对抗样本缺乏共识而受限．除softmax分布[３２]检测法以外, 目前检测技术的主要测试样本是 FGSM [９]或 BIM [１３] 对抗样本,softmax分布仅适用于输入对抗样本后立即停止的特定攻击．如表１所示,特征压缩[３３]的检测范围更广,但当攻击者完全了解检测机制时,可以绕过特征压缩的检测

表３展示了不同检测与防御类别的比较．检测方法更偏向于数据驱动,在攻击者了解检测机制的条件下,能够通过对数据的处理绕过检测．因此,检测、防御相结合的方式是研究趋势．防御方法围绕提升模型准确率和降低攻击成功率这２方面展开,在防御中降低数据依赖性、提升模型泛化能力以及提升对高强度攻击的抵抗性依旧是亟待解决的问题

５总结与展望

本文介绍了对抗样本生成攻击技术、检测与防御技术,生成攻击倾向于黑盒攻击的研究,是因为黑盒攻击更具有现实意义．相比生成技术,检测与防御技术具有滞后性,因此防御方法往往会受到特定的攻击．早期生成技术基于梯度,现有的防御技术基于梯度掩蔽,而 BPDA 等引入近似性的生成技术则能够攻击基于梯度掩蔽的防御技术．鉴于检测与防御技术的滞后性,目前研究的难点在于:首先是提升自适应性,现有的防御方法大都针对已有的攻击,不能保证对未知攻击的鲁棒性．其次是扩大防御范围,现有的防御方法无法防御多种类型的攻击．针对这个难点,有研究将其他现有的算法用来进行对抗攻击和防御,例如:强化学习[４９]或元学习[５０]等．还有研究通过研究神经网络的特性来探寻对抗样本的成因与防御[５１Ｇ５２]．例如:Geirhos等人[５１] 发现卷积神经网络强调纹理特征,增加形状权重能够改善模型的鲁棒性．Zhang等人[５２]的工作进一步表明,对抗训练模型更强调形状特征或边缘特征而非纹理特征．本文重点关注了图像领域的对抗样本检测与防御技术,但对抗样本在文字、语音等领域也存在,这也是未来可能的研究方向．

成为VIP会员查看完整内容