深度学习模型的中毒攻击与防御综述

2021 年 1 月 10 日 专知

深度学习是当前机器学习和人工智能兴起的核心。随着深度学习在自动驾驶、门禁安检、人脸支付等严苛的安全领域中广泛应用，深度学习模型的安全问题逐渐成为新的研究热点。深度模型的攻击根据攻击阶段可分为中毒攻击和对抗攻击，其区别在于前者的攻击发生在训练阶段，后者的攻击发生在测试阶段。本文首次综述了深度学习中的中毒攻击方法，回顾深度学习中的中毒攻击，分析了此类攻击存在的可能性，并研究了现有的针对这些攻击的防御措施。最后，对未来中毒攻击的研究发展方向进行了探讨。

http://jcs.iie.ac.cn/xxaqxb/ch/reader/view_abstract.aspx?file_no=20200403&flag=1

随着人工智能技术的不断发展, 深度学习的研究成果在自然语言处理[1]、图像识别[2]、工业控制[3]、信号处理[4]、安全[5]等领域得到广泛应用。其中安全应用尤其重要, 若在自动驾驶[6]、军事作战[7-8]、舆论战[9]等安全领域的数据或算法存在漏洞, 则将带来重大的人身伤害和财产损失。例如, 仅 2018 年全球发生了 12 起自动驾驶车祸, 包括 Uber、特斯拉、福特、谷歌等自动驾驶研发 AI 巨头, 因此研究针对深度学习模型的攻击进而发现模型中存在的漏洞并进行防御至关重要。

2017年2月, 牛津大学召开研讨会, 共同探究人工智能的发展可能带来的安全问题。2018年2月, 360 安全研究院发布《AI 安全风险白皮书》, 从深度学习系统软件的复杂度、深度学习模型的逃逸攻击和深度学习系统数据流的安全三个角度解读 AI 系统存在的安全问题。同时, OpenAI、人类未来研究所、牛津大学、剑桥大学等共同发布安全报告, 充分探讨了 “面对人工智能恶意使用时所需要进行的预测、预防和缓解方法”。2018 年 9 月, 美国发布《机器崛起: 人工智能及对美国政策不断增长的影响》的 AI 白皮书, 分析了在 AI 应用方面面临的挑战, 尤其是恶意使用问题, 同年12 月, 美国政府情报研究机构 DARPA 在采购文件中提出检测人工智能算法存在漏洞, 避免中毒攻击的威胁。

深度学习是目前人工智能机器学习最常用的技术之一, 目前针对深度学习的攻击可以根据攻击的阶段分为中毒攻击和对抗攻击。对抗攻击发生在模型测试阶段, 攻击者通过在原始数据上添加精心设计的微小扰动得到对抗样本, 从而对深度学习模型进行愚弄, 使其以较高置信度误判的恶意攻击。中毒攻击发生在模型训练阶段, 攻击者将中毒样本注入训练数据集, 从而在训练完成的深度学习模型中嵌入后门触发器, 在测试阶段输入毒药样本, 则触发攻击爆发。本文主要针对中毒攻击进行研究, 对于逃避攻击的相关研究可以参考论文[10-13]。

中毒攻击是由 Barreno 等人[14]开始提出的, 随后 Biggio B[15], Kloft M[16], Shafahi A[17], Koh & Liang[18], Mahloujifar[19], Xiao H[20], Gu T[21], Yang C[22], Alfeld S[23]以及其他研究人员[24-27]也开始对中毒攻击进行研究, 包括 Liu [28], Chen [29]和 Turner [30]提出了后门攻击。中毒攻击已经影响恶意软件检测[31-32]、协同过滤系统[33]、人脸识别[34]、自动驾驶[35]、医疗保健[36]、贷款评估[37]和各种其他应用场景。虽然人们很早就开始对人工智能的中毒攻击进行研究[38-40], 本文主要对计算机视觉领域及其他一些领域的中毒攻击进行总结分析。随着中毒攻击研究的开展, 中毒攻击的防御也随之开展, 针对中毒攻击的防御主要集中在对训练集进行检测并去除中毒样本[41-46]。例如 Yang C 等人[22]针对会使得检测器检测率明显下降的中毒攻击, 提出了一种基于损失的防御对策, Liu K 等人[47]提出了一种结合剪枝和微调防御的精细剪枝防御, Shen S[48]提出一种对协作式深度学习系统的中毒攻击进行防御的 AUROR 防御方法。

本文的结构组织如下。本文首先在第 1 节引言部分介绍了深度学习模型及其攻击与防御的研究概况; 第 2 节对攻防的理论进行分析, 具体包括攻击原理分析、统一建模、普适性分析和防御原理分析; 第 3 节对中毒攻击的方法进行介绍, 根据下毒的方式分别从对数据下毒和对模型下毒两种类型对中毒攻击进行介绍和比较; 第 4 节分析不同领域中中毒攻击存在的可能性; 第 5 节概述了中毒攻击的防御方法; 第 6 节研究方向与展望, 主要从新技术、新领域、新应用、新防御等多方面进行开展; 第 7 节结论, 对目前深度学习模型的中毒攻击与防御进行了总述。