深度学习是当前机器学习和人工智能兴起的核心。随着深度学习在自动驾驶、门禁安检、人脸支付等严苛的安全领域中广泛应用,深度学习模型的安全问题逐渐成为新的研究热点。深度模型的攻击根据攻击阶段可分为中毒攻击和对抗攻击,其区别在于前者的攻击发生在训练阶段,后者的攻击发生在测试阶段。本文首次综述了深度学习中的中毒攻击方法,回顾深度学习中的中毒攻击,分析了此类攻击存在的可能性,并研究了现有的针对这些攻击的防御措施。最后,对未来中毒攻击的研究发展方向进行了探讨。
http://jcs.iie.ac.cn/xxaqxb/ch/reader/view_abstract.aspx?file_no=20200403&flag=1
随着人工智能技术的不断发展, 深度学习的研 究成果在自然语言处理[1]、图像识别[2]、工业控制[3]、 信号处理[4]、安全[5]等领域得到广泛应用。其中安全 应用尤其重要, 若在自动驾驶[6]、军事作战[7-8]、舆论 战[9]等安全领域的数据或算法存在漏洞, 则将带来 重大的人身伤害和财产损失。例如, 仅 2018 年全球 发生了 12 起自动驾驶车祸, 包括 Uber、特斯拉、福 特、谷歌等自动驾驶研发 AI 巨头, 因此研究针对深 度学习模型的攻击进而发现模型中存在的漏洞并进 行防御至关重要。
2017年2月, 牛津大学召开研讨会, 共同探究人工智能的发展可能带来的安全问题。2018年2月, 360 安全研究院发布《AI 安全风险白皮书》, 从深度学 习系统软件的复杂度、深度学习模型的逃逸攻击和 深度学习系统数据流的安全三个角度解读 AI 系统存 在的安全问题。同时, OpenAI、人类未来研究所、牛 津大学、剑桥大学等共同发布安全报告, 充分探讨了 “面对人工智能恶意使用时所需要进行的预测、预防 和缓解方法”。2018 年 9 月, 美国发布《机器崛起: 人 工智能及对美国政策不断增长的影响》的 AI 白皮书, 分析了在 AI 应用方面面临的挑战, 尤其是恶意使用 问题, 同年12 月, 美国政府情报研究机构 DARPA 在 采购文件中提出检测人工智能算法存在漏洞, 避免 中毒攻击的威胁。
深度学习是目前人工智能机器学习最常用的技 术之一, 目前针对深度学习的攻击可以根据攻击的 阶段分为中毒攻击和对抗攻击。对抗攻击发生在模 型测试阶段, 攻击者通过在原始数据上添加精心设 计的微小扰动得到对抗样本, 从而对深度学习模型 进行愚弄, 使其以较高置信度误判的恶意攻击。中毒 攻击发生在模型训练阶段, 攻击者将中毒样本注入 训练数据集, 从而在训练完成的深度学习模型中嵌 入后门触发器, 在测试阶段输入毒药样本, 则触发 攻击爆发。本文主要针对中毒攻击进行研究, 对于逃 避攻击的相关研究可以参考论文[10-13]。
中毒攻击是由 Barreno 等人[14]开始提出的, 随后 Biggio B[15], Kloft M[16], Shafahi A[17], Koh & Liang[18], Mahloujifar[19], Xiao H[20], Gu T[21], Yang C[22], Alfeld S[23]以及其他研究人员[24-27]也开始对中毒攻击进行 研究, 包括 Liu [28], Chen [29]和 Turner [30]提出了后 门攻击。中毒攻击已经影响恶意软件检测[31-32]、协 同过滤系统[33]、人脸识别[34]、自动驾驶[35]、医疗保 健[36]、贷款评估[37]和各种其他应用场景。虽然人们 很早就开始对人工智能的中毒攻击进行研究[38-40], 本文主要对计算机视觉领域及其他一些领域的中毒 攻击进行总结分析。随着中毒攻击研究的开展, 中毒 攻击的防御也随之开展, 针对中毒攻击的防御主要 集中在对训练集进行检测并去除中毒样本[41-46]。例 如 Yang C 等人[22]针对会使得检测器检测率明显下降 的中毒攻击, 提出了一种基于损失的防御对策, Liu K 等人[47]提出了一种结合剪枝和微调防御的精细剪 枝防御, Shen S[48]提出一种对协作式深度学习系统 的中毒攻击进行防御的 AUROR 防御方法。
本文的结构组织如下。本文首先在第 1 节引言 部分介绍了深度学习模型及其攻击与防御的研究概 况; 第 2 节对攻防的理论进行分析, 具体包括攻击原 理分析、统一建模、普适性分析和防御原理分析; 第 3 节对中毒攻击的方法进行介绍, 根据下毒的方式分 别从对数据下毒和对模型下毒两种类型对中毒攻击 进行介绍和比较; 第 4 节分析不同领域中中毒攻击 存在的可能性; 第 5 节概述了中毒攻击的防御方法; 第 6 节研究方向与展望, 主要从新技术、新领域、新 应用、新防御等多方面进行开展; 第 7 节结论, 对目 前深度学习模型的中毒攻击与防御进行了总述。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“攻击防御” 可以获取《深度学习模型的中毒攻击与防御综述》专知下载链接索引