摘要: 近年来,以深度学习为代表的人工智能技术在金融安防、自动驾驶、医疗诊断等领域取得了较为成功的应用.然而,图像分类作为上述应用中的一项基础视觉任务,正遭受着对抗攻击等技术手段带来的巨大安全隐患.提高深度学习模型抵御对抗攻击的能力(即对抗鲁棒性)成为有效缓解该问题的可行技术途径.为了科学、全面地提升深度学习模型的对抗鲁棒性,众多学者从基准评估和指标评估2个角度围绕对抗鲁棒性评估开展了大量研究.该研究着重对上述指标评估相关研究进行综述:首先,介绍对抗样本相关概念以及存在的原因,总结提出进行对抗鲁棒性评估时需要遵循的评估准则;其次,从被攻击模型和测试数据2个维度,重点梳理和对比分析现有的主要对抗鲁棒性评估指标;而后,分析总结现阶段主流的图像分类数据集和对抗攻防集成工具,为后续开展对抗鲁棒性评估奠定基础;最后,探讨当前研究的优势和不足,以及未来潜在的研究方向.旨在为相关领域从业人员或学习者提供一个较为全面的、系统的和客观的面向图像分类的对抗鲁棒性评估指标综述.

引言

2019年瑞莱智慧 RealAI团队对人脸照片进行 算法处理,将照片打印并粘贴到镜框上,通过佩戴眼 镜成功攻破19款商用手机的人脸解锁[1];2020年 美国东北大学团队[2]设计了一款印有特殊图案的 T 恤,可使穿戴者躲避智能摄像头的监测;2021年腾 讯科恩实验室[3]通过在路面部署干扰信息,导致特 斯拉 ModelS车辆经过时对车道线做出错判,致使 车辆驶入反向车道􀆺􀆺 由此可见,尽管深度学习在执行各种复杂任务 时取得了出乎意料的优异表现,但在安全应用领域 仍有很大的局限性.Szegedy等人[4]发现,深度学习 对于精心设计的输入样本是很脆弱的.这些样本可 以轻易用人类察觉不到的微小扰动,欺骗一个训练 好的深度学习模型,使模型做出错误的决策.现在, 深度学习中的对抗攻击技术受到了大量关注,以面 向图像分类为主的对抗攻击算法[5G10]不断涌现. 在此背景下,越来越多的研究者开始关注如何 提升模型抵御对抗攻击的能力,即增强模型的对抗 鲁棒性,并探索出了一系列的对抗防御手段,如梯度 遮蔽[11G12]、对 抗 训 练[6,13]、数 据 处 理[14G15]和 特 征 压 缩[16]等.尽管这些方法对于改善模型的对抗鲁棒性 是有效的,但是目前针对模型对抗鲁棒性的评估框架 尚未完善,主要是通过不断改进攻防算法,反复进行 对抗,定性给出模型鲁棒性好坏的基准,或者使用分 类准确率等指标单一地衡量模型的对抗鲁棒性.此 外,许多攻击算法或多或少会受到实验条件的限制, 难以适用于所有的深度学习模型,这些问题为模型 的对抗鲁棒性评估(adversarialrobustnessevaluation) 带来了挑战.

目前,面向图像分类的对抗鲁棒性评估领域还 有很大的发展空间,如何正确、科学、定量且全面地 评估模型的对抗鲁棒性,正在吸引业界和学术界的 关注.为了更好地探究对抗鲁棒性评估问题,本文系 统梳理并分析总结了面向图像分类的对抗鲁棒性评 估方法,以促进该领域的研究.

1 对抗样本相关介绍

生成对抗样本是开展对抗鲁棒性评估工作的基 础.为了更好地理解对抗鲁棒性评估,本节首先简要 介绍对抗样本的概念和相关专业术语,并探讨对抗 样本存在的原因。

1.1 对抗样本及相关术语

概念 1.对 抗 样 本.最 早 提 出 这 一 概 念 的 是 Szegedy等人[4],他们在原始样本上添加肉眼难以 察觉的微小扰动,愚弄了当时最先进的深度神经网 络(deepneuralnetworks,DNNs),诱导模型分类 错误.如图1所示,通过在原始样本上添加图中的扰 动,就能让模型将卡车错误地识别成鸵鸟。这些 经 过 精 心 设 计 的 样 本 被 称 为 对 抗 样 本 (adversarialexample),构造对抗样本的过程被称为 对抗攻击.

概念2.对抗攻击目标.Biggio等人[19]指出对抗 攻击的目标是根据需求实现损失函数最小化或最大 化.从实际攻击效果来看,也就是通过添加精心设计 的微小扰动实现模型的错误分类.根据不同的攻击 目的,可以将对抗攻击目标划分为非目标攻击和目 标攻击.非目标攻击指的是对抗样本诱导模型分类 错误,但不指定错分为哪一种类别,而目标攻击限定 了模型将标签为i 的样本错分成第j 类,数学语言描述分别为

概念3.对抗攻击知识.它指的是攻击者所掌握 的相关信息,包括训练样本、模型结构和模型输出 等.针对攻击者对智能系统了解情况的多少,可以将 攻击划分为白盒攻击、灰盒攻击和黑盒攻击,攻击难 度依次增大.由于灰盒攻击的边界难以界定,目前研 究大多以白盒攻击和黑盒攻击为主,本文不对灰盒 攻击进行相关介绍.

概念4.对抗攻击能力[20G21].指攻击者修改训练 数据或测试数据的能力.在针对图像分类任务开展 对抗攻击时,攻击者的能力往往仅限于对测试集数 据进行修改,不考虑通过数据投毒等手段,影响模型 的训练过程,这种攻击被称为探索性攻击.与之对应 的诱导性攻击,指的是通过修改训练集,破坏原有训 练数据的概率分布,使模型无法达到理想的分类效 果.由此可见,诱导性攻击从根本上实现了对模型的 攻击,比探索性攻击的攻击性更强. 通过分析图像分类全过程各环节[22]的特点,从 上述提到的攻击目标、知识以及能力3个维度对对 抗攻击方法进行分类,形成如图2所示的对抗攻击 分类框架.诱导性攻击主要对原始数据输入以及数 据处理阶段进行攻击,探索性攻击是在模型训练完 成后,针对分类阶段进行攻击;倘若攻击者无法获取 模型训练及训练前各阶段的信息,则开展的攻击为 黑盒攻击,否则为白盒攻击;在最终的分类阶段,针 对攻击者能否精确控制分类器对测试样本的分类结 果,可以将对抗攻击划分为目标攻击和非目标攻击 2类.

1.2 对抗样本存在的解释

对抗鲁棒性评估与对抗样本密切相关,深入理 解对抗样本产生的机理有助于从根本上提出科学的 评估方法与指标.然而关于对抗样本存在的解释仍 有许多争议,目前还没有得出一个准确统一的结论. Szegedy等人[4]认为网络模型的非线性特性是 导致对抗样本存在的原因.具体而言,他们从正负实 数分类问题中发现,由于无理数的个数要远多于有 理数,训练集中无理数和有理数的比例难免失去平 衡,基于此数据集训练的模型可能无法对有理数进 行正确的分类.但不可否认的是,有理数是的确存在 且稠密的.对抗样本好比有理数,模型的非线性特性。使得模型训练时对高维特征的提取不充分,仅仅学 习到局部子空间的特征,可能导致一直存在但被发 现的概率很低的对抗样本难以被观察到,进而影响 了模型的决策.遗憾的是,文献[4]并没有给出相关 的数学说明.

2 对抗鲁棒性评估

科学、有效地评估模型的对抗鲁棒性对于构建 对抗鲁棒模型、提高智能系统安全性具有重要意义. 然而,至今尚未形成一个公正、统一的对抗鲁棒性评 估指标或方法.现阶段面向图像分类的对抗鲁棒性 评估主要分为基准评估和指标评估2类.前者通过 提出并改进各种攻防算法[27G31],反复进行对抗,以排 名基准[32]的形式反映对抗鲁棒性的强弱;后者从对 抗样本的角度出发提出一系列评估指标,旨在通过 全面、合理的指标对模型的对抗鲁棒性进行评估.相 比前者,后者的优势在于能够以客观可量化的方式 衡量模型的对抗鲁棒性,为增强模型的对抗鲁棒性 提供可解释的科学依据.

2.1 基本概念

在深度学习领域,鲁棒性(robustness)指的是 智能系统在受到内外环境中多种不确定因素干扰 时,依旧可以保持功能稳定的能力.而对抗鲁棒性 (adversarialrobustness)[12,33]专指对抗环境下模型 抵御对抗攻击的能力,即模型能否对添加微小扰动 的对抗样本做出正确分类的能力.以任意攻击方法 在原始样本上添加扰动,模型正确识别该样本的概 率越高,说明模型的对抗鲁棒性越强.从数据空间的 角度来看,添 加 的 扰 动 可 以 被 描 述 为 对 抗 扰 动 距 离,距离范 围内的样本都能够被正确分类.因此也可以说,最小 对抗扰动距离 (minimaladversarialperturbation)越 大,则允许添加的扰动范围越大,模型的对抗鲁棒性 越强. 可以看出,对 抗 鲁 棒 性 评 估 的 关 键 是 计 算 最 小对抗扰动距离.如果可以计算出最小对抗扰动距 离的精确值,那 么 最 小 对 抗 扰 动 距 离 的 值 将 可 以 作为模型对抗鲁棒性评估的指标.然而,由于神经 网络模型是大型、非线性且非凸的,对抗鲁棒性等 模型 属 性 的 验 证 问 题 已 被 证 明 是 一 个 NP 完 全 (nonGdeterministicpolynomialGcomplete,NPGC)问 题[33G35].作为与对抗鲁棒性相关的指标,最小对抗扰 动距离难以被精确求解.因此,许多研究转向使用最 小对抗扰动的上界或下界去近似精确值[36].当扰动 距离大于上边界距离时,说明至少有1个添加了该 扰动的样本被模型误分类;当扰动距离小于下边界 距离时,则任意添加了该扰动的样本都能被模型正 确分类,如图3所示.通过最大下边界距离或最小上 边界距离逼近最小对抗扰动距离,从而实现对模型 对抗鲁棒性的评估。

2.2 评估准则

对抗鲁棒性评估是一个比较困难的问题,执行 不合理的实验会导致评估无效.比如向原始样本添 加的扰动过大,人眼即可判别生成样本与原始样本, 在此基础上得到的评估结果是无意义的[37].诸如此 类的错误常常被研究人员忽略.本文梳理了进行对 抗鲁棒性评估时需要遵守的3个评估准则[37],以便 指导研究人员开展正确的评估.

1)合理使用攻击算法进行评估.部分攻击算法 是针对某种特定模型而设计的,若将其应用于其他 模型,很难体现出模型是否具有抵御这种攻击的能 力,也无法说明模型具有对抗鲁棒性.另外,在进行 对抗鲁棒性评估时,需要保证评估的普适性,这就意 味着不能仅仅使用带有默认超参数的对抗攻击进行 评估,应该排列组合所有参数,达到不同程度的攻击 效果,从而评估模型的对抗鲁棒性.

2)保证模型在正常环境下的良好性能.实验表 明,对抗训练会导致智能系统中神经网络模型的准 确率下降[38].显然,以牺牲模型对原始样本的准确 率来增强模型对抗鲁棒性的做法是不可取的.因此, 开展对抗鲁棒性评估,应说明模型对原始样本的分 类准确率.被攻击模型保持正常环境下的分类准确 率是正确评估对抗鲁棒性的前提.在满足该前提的 条件下,如果被攻击模型能够正确识别对抗样本,才 能说明模型具有较好的对抗鲁棒性.

3)结合实际需求选择评估结果分析方法.理论 上,评价智能系统的对抗鲁棒性应分析模型受到攻 击威胁时的最坏结果.在现实情况中,往往从统计学 角度以平均效果衡量鲁棒性的好坏.针对不同需求, 应适当调整评估思维,给出符合实际的评估结果.进 行统计学分析时,还需对分类准确率等结果进行方 差计算,避免出现较高的偏差,使评估结果失去稳 定性.

2.3 评估指标体系

当前大多数研究通过分类准确率、攻击次数或 扰动强度这3种指标进行对抗鲁棒性评估.这些指 标能够直观上反映模型对抗鲁棒性的强弱,但未能 全面地考虑到影响对抗鲁棒性的因素.针对该问题, 本节梳理了现有研究中所涉及的30余种对抗鲁棒 性评估指标,并从被攻击模型和测试数据2个角度 对指标进行分类.

3 对抗攻防工具与数据集

近年来,对抗攻防研究发展迅速,相应算法层出 不穷.自2016年始,许多研究单位推出了集成众多 主流算法的对抗攻防工具,以提高研究者与开发人 员的测评效率,助力推动智能系统安全领域的发展. 此外,在使用对抗攻防工具进行实验的过程中,各学 者还应用了多种不同的数据集.本节将介绍主流的 数据集与对抗攻防集成平台,方便后续开展对抗鲁 棒性评估研究.

4 未来研究方向

对抗攻击技术近年来获得了业界内的广泛关 注,取得了许多突破性进展,但关于对抗鲁棒性评估 的研究仍处于起步阶段,依然面临许多的挑战.基于 本文对对抗鲁棒性评估研究现状的深入分析,未来 该领域的研究需要重点关注4个方向:

1)深入开展对抗样本存在机理、深度学习模型 脆弱性和可解释性等理论研究.目前国内外学术界 关于对抗样本的存在原因尚未达成共识,缺乏完备 的数学理论支撑,对于如何正确解释深度学习模型 的内在逻辑与扰动下的决策行为尚在探索当中.这 些难题与对抗鲁棒性的评估有着紧密关联,开展相 关理论研究有助于理解对抗鲁棒性评估问题的本 质,把握影响模型对抗鲁棒性的关键因素,能从根本 上解决对抗环境下模型鲁棒性的评估问题,是未来 对抗鲁棒性评估问题在理论层面上值得研究的方向 之一.

2)提出一种或一组通用的、可量化的、综合的 对抗鲁棒性评估指标.无论是面向数据的指标还是 面向模型的指标,分析视角单一,给出的评估结果很 难被直接采纳.此外,影响模型对抗鲁棒性的因素众 多,采用一种或几种指标难以准确、完整地评估对抗 鲁棒性的强弱.参考其他研究领域指标评估的方法, 梳理影响对抗鲁棒性的全部因素,抓住关键要素,提 出一种或一组通用的、可量化的、综合的指标,全面 评估模型的对抗鲁棒性,是未来对抗鲁棒性评估问 题在方法层面上值得研究的方向之一.

3)构建科学、统一、规范、完备的对抗鲁棒性评估框架.面向图像分类的数据集种类繁多,攻击方法 不断被创新,评估指标与评估方法不尽相同,尽管对 抗攻防集成工具涵盖多种攻防算法,但也无法保证 进行对抗鲁棒性评估的实验条件和度量标准是一致 的,这为模型与模型之间、模型防御前后对抗鲁棒性 的比较带来了困难.搭建对抗鲁棒性评估框架,全面 综合各种攻防算法、数据集与评估指标,在标准对抗 环境下从多层次、细粒度分析图像分类全过程模型 抵御对抗攻击的能力,是未来对抗鲁棒性评估问题 在流程层面上值得研究的方向之一.

4)重点研究黑盒、非目标的融合攻击环境下的 对抗鲁棒性评估方法.物理场景中难以获取模型的 全部信息,针对白盒、目标攻击的评估方法难以应用 于实际智能系统模型的对抗鲁棒性评估任务,且由 于目前黑盒、非目标攻击的性能远低于人们的预期, 无法保证使用该攻击进行评估的效果.更重要的是, 现实环境中攻击者可能融合对抗扰动、自然噪声等 多种类型干扰或多种攻击方法开展对抗攻击,亦或 利用智能系统在动态环境下依据时间、空间等信息 进行决策的漏洞,设计融合多元信息干扰的对抗攻击方法,这给对抗鲁棒性评估带来了新的契机与挑 战.如何评估模型在黑盒、非目标的融合攻击环境下 的对抗鲁棒性,是未来对抗鲁棒性评估问题在实际 应用层面上值得研究的方向之一.

5 总 结

面对对抗攻击等各种威胁,增强模型的对抗鲁 棒性是保障智能系统安全的重要方式和手段.评估 对抗鲁棒性是指导提升模型对抗鲁棒性的基础.然 而,关于对抗鲁棒性评估的研究还停留在初级阶段, 仅仅依靠排名基准或简单指标无法准确衡量模型抵 御对抗攻击的能力.因此,本文在调研和分析国内外 对抗鲁棒性评估研究的基础上,针对图像分类这一 基础视觉任务,从对抗样本存在原因、对抗鲁棒性评 估准则、对抗鲁棒性评估指标等方面对现有研究成 果进行了归类、总结和分析.同时,梳理了现阶段主流 的图像分类数据集和对抗攻防集成工具.最后,指出 了对抗鲁棒性评估未来可能的研究方向,旨在为该 领域研究的进一步发展和应用提供一定借鉴与帮助.

成为VIP会员查看完整内容
56

相关内容

图像分类是指给定一组各自被标记为单一类别的图像,然后对一组新的测试图像的类别进行预测,并测量预测的准确性结果。
面向图像数据的对抗样本检测与防御技术综述
专知会员服务
45+阅读 · 2022年6月27日
深度学习模型鲁棒性研究综述
专知会员服务
91+阅读 · 2022年1月23日
图像分类的深度卷积神经网络模型综述
专知会员服务
56+阅读 · 2021年10月29日
专知会员服务
47+阅读 · 2021年9月9日
计算机视觉对抗攻击综述论文,35页pdf456篇文献
专知会员服务
63+阅读 · 2021年9月4日
专知会员服务
34+阅读 · 2021年8月13日
专知会员服务
43+阅读 · 2021年1月18日
专知会员服务
91+阅读 · 2021年1月17日
深度学习目标检测方法综述
专知会员服务
274+阅读 · 2020年8月1日
【浙江大学】对抗样本生成技术综述
专知会员服务
91+阅读 · 2020年1月6日
深度学习为何不鲁棒?万字长文综述对抗鲁棒性
极市平台
3+阅读 · 2022年11月6日
从多篇顶会论文看图神经网络黑盒攻击近期进展
PaperWeekly
0+阅读 · 2022年10月19日
小目标检测研究综述
专知
7+阅读 · 2022年8月27日
「深度学习模型鲁棒性」最新2022综述
专知
7+阅读 · 2022年1月23日
2022最新图嵌入模型综述
机器学习与推荐算法
3+阅读 · 2022年1月18日
深度生成模型综述
专知
1+阅读 · 2022年1月2日
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
【综述】自动机器学习AutoML最新65页综述,带你了解最新进展
中国人工智能学会
48+阅读 · 2019年5月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年11月18日
Arxiv
0+阅读 · 2022年11月15日
Generalized Out-of-Distribution Detection: A Survey
Arxiv
15+阅读 · 2021年10月21日
Arxiv
14+阅读 · 2021年6月30日
Image Segmentation Using Deep Learning: A Survey
Arxiv
45+阅读 · 2020年1月15日
VIP会员
相关VIP内容
面向图像数据的对抗样本检测与防御技术综述
专知会员服务
45+阅读 · 2022年6月27日
深度学习模型鲁棒性研究综述
专知会员服务
91+阅读 · 2022年1月23日
图像分类的深度卷积神经网络模型综述
专知会员服务
56+阅读 · 2021年10月29日
专知会员服务
47+阅读 · 2021年9月9日
计算机视觉对抗攻击综述论文,35页pdf456篇文献
专知会员服务
63+阅读 · 2021年9月4日
专知会员服务
34+阅读 · 2021年8月13日
专知会员服务
43+阅读 · 2021年1月18日
专知会员服务
91+阅读 · 2021年1月17日
深度学习目标检测方法综述
专知会员服务
274+阅读 · 2020年8月1日
【浙江大学】对抗样本生成技术综述
专知会员服务
91+阅读 · 2020年1月6日
相关资讯
深度学习为何不鲁棒?万字长文综述对抗鲁棒性
极市平台
3+阅读 · 2022年11月6日
从多篇顶会论文看图神经网络黑盒攻击近期进展
PaperWeekly
0+阅读 · 2022年10月19日
小目标检测研究综述
专知
7+阅读 · 2022年8月27日
「深度学习模型鲁棒性」最新2022综述
专知
7+阅读 · 2022年1月23日
2022最新图嵌入模型综述
机器学习与推荐算法
3+阅读 · 2022年1月18日
深度生成模型综述
专知
1+阅读 · 2022年1月2日
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
【综述】自动机器学习AutoML最新65页综述,带你了解最新进展
中国人工智能学会
48+阅读 · 2019年5月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年11月18日
Arxiv
0+阅读 · 2022年11月15日
Generalized Out-of-Distribution Detection: A Survey
Arxiv
15+阅读 · 2021年10月21日
Arxiv
14+阅读 · 2021年6月30日
Image Segmentation Using Deep Learning: A Survey
Arxiv
45+阅读 · 2020年1月15日
微信扫码咨询专知VIP会员