面向深度强化学习的对抗攻防综述

深度强化学习技术以一种端到端学习的通用形式融合了深度学习的感知能力与强化学习的决策能力, 在多个领域得到了广泛应用, 形成了人工智能领域的研究热点. 然而, 由于对抗样本等攻击技术的出现, 深度强化学习暴露出巨大的安全隐患. 例如, 通过在真实世界中打印出对抗贴纸便可以轻松地使基于深度强化学习的智能系统做出错误的决策, 造成严重的损失. 基于此, 本文对深度强化学习领域对抗攻防技术的前沿研究进行了一次全面的综述, 旨在把握整个领域的研究进展与方向, 进一步推动深度强化学习对抗攻防技术的长足发展, 助力其应用安全可靠. 结合马尔科夫决策过程中可被扰动的空间, 本文首先从基于状态、基于奖励以及基于动作角度的详细阐述了深度强化学习对抗攻击的进展; 其次, 通过与经典对抗防御算法体系进行对齐, 本文从对抗训练、对抗检测、可证明鲁棒性和鲁棒学习的角度归纳总结了深度强化学习领域的对抗防御技术; 最后, 本文从基于对抗攻击的深度强化学习机理理解与模型增强的角度分析了对抗样本在强化学习领域的应用并讨论了领域内的挑战和开放研究方向.

1 引言

人工智能技术是引领新一轮科技革命和产业变革的战略性技术, 已经成为世界各国抢占战略制高点、开展科技竞争的核心领域. 这其中, 深度强化学习(Deep Reinforcement Learning, DRL)融合了强化学习的自我激励决策能力和深度学习的抽象表征感知能力, 通过赋予智能体自监督学习机制, 在不断地与环境交互过程中修正策略并使用深度神经网络的强大表征能力拟合复杂高维的环境特征, 形成了人工智能领域新的研究热点. DRL 这种通用性较强的端到端感知控制系统展示出了人类专家级别的能力, 并在公共安全、金融经济、国防安全等领域得到了应用, 发挥了极其关键的作用 [1-4] . 例如, 2017 年基于 DRL 的 AlphaGo 系统在复杂的围棋比赛中击败了人类世界围棋冠军 [5] ; AlphaStar 在星际争霸游戏比赛中战胜了多位人类职业电竞选手, 证明了 DRL 在复杂空间中的有效性; DRL 在商业领域的推荐系统中也大放异彩. 这些都充分地展示了深度强化学习技术的重要性、实用性以及非凡的应用价值. 然而, 由于现实应用场景的开放性, 以大数据训练和经验性规则为基础的深度强化学习方法面临环境的动态变化、输入的不确定性、甚至是恶意攻击等问题, 暴露出稳定性、安全性等方面的安全隐患. Christian Szegedy 等人[6]在 2013 年首次发现并提出了出现在计算机视觉领域的对抗样本(Adversarial examples). 这种样本隐藏了微小的恶意噪声, 人眼无法区分但会导致人工智能算法模型产生错误的预测结果, 对其安全性和可靠性构成了严重的威胁. 除了计算机视觉领域, 研究学者还发现对抗样本对于自然语言处理、深度强化学习等不同领域和类型的人工智能算法和系统都能够产生较强的迷惑性和攻击性. 更为重要的是, 对抗样本可以在没有目标模型具体信息的条件下轻易地攻破智能系统并迫使其产生攻击者期望的任何输出. 在军事领域和民用公共安全领域存在着大量以深度强化学习为基础的智能应用场景, 如: 智能无人机控制[7]、智能视觉导航[8]、车联网计算控制[9]、异构工业任务控制[10]等, 这些安全攸关的场景对于人工智能的安全、可靠、可控有极高的需求. 然而, 基于深度强化学习的智能算法都极易受到对抗噪声的干扰产生不可预期的错误, 甚至可能被误导产生严重的安全问题. 例如, 对抗噪声的攻击可以造成真实世界的自动驾驶系统错误地识别路牌、做出错误的决策行为, 引发危险事故; 自动导航机器人在遇到对抗噪声攻击后就会执行错误的决策, 执行错误的路径预测, 无法达到预设终点; 在多智能体博弈场景中, 攻击者还能利用某个智能体的对抗行为来诱导其他智能体产生错误的动作、配合, 使其最终输掉博弈比赛[11-17] . 可以看到, 对抗攻击的出现对于深度强化学习的安全、可靠、稳定应用提出了极大的挑战. 因此, 系统性地分析归纳深度强化学习对抗攻防研究发展脉络和未来方向, 对于深刻认识深度强化学习鲁棒性的研究进展与方向、进一步解决研究不足之处并推动安全可靠深度强化学习技术的发展都显得尤为重要. 然而, 学术界对于深度强化学习对抗安全的综述性研究却仍十分滞后: 研究人员[12,18-20]于 2018 年和 2020 年对深度强化学习的对抗攻防进行了初步的总结探讨, 然而这些研究距发表至今已数年有余, 缺乏对大量较新研究成果的涵盖,对于领域未来发展脉络的把握也已不足. 在此背景下, 为了系统全面地梳理 DRL 对抗攻防的发展思路、进一步支撑和推动高安全和可信赖深度强化学习技术的发展, 本文针对深度强化学习算法模型的对抗攻防开展了系统的综述性研究, 从面向深度强化学习的对抗攻防技术的发展现状、研究历程、未来趋势进行了详细的讨论.

本文围绕面向深度强化学习的对抗攻防技术展开研究和讨论, 其组织结构如下: 第 1 章介绍本文的研究背景、研究内容等; 第 2 章主要从强化学习和对抗样本两个角度对相关预备知识和概念进行介绍及定义; 第 3 章从基于状态、基于奖励以及基于动作这三个角度对 DRL 的对抗攻击技术进行讨论和分析; 进一步, 第 4 章主要从对抗训练、对抗检测以及可证明鲁棒性这三个角度对 DRL 的对抗防御算法进行讨论和总结; 在第 5 章中, 本文又进一步归纳并讨论了基于对抗的强化学习机理理解和模型增强, 如: 对抗增智等; 第 6 章结合深度强化学习对抗攻防领域的挑战进行了讨论和分析; 最后, 第 7 章给出本文的结论和未来研究方向.

2. 面向深度强化学习的对抗攻击技术

基于上文所述, 本文将对强化学习的攻击分为基于状态𝒮、基于奖励𝑅以及基于动作𝒜三种攻击方式, 并按照这三种方式进行归纳总结(如表 1 所示). 其中, 基于状态𝒮的攻击通过扰动智能体观测或者改变智能体观测结果, 从而诱使智能体做出最小化目标函数的决策; 基于奖励𝑅的攻击通过微小地扰动智能体训练过程中的奖励函数, 从而影响智能体的全局策略; 基于动作𝒜的攻击直接对智能体的动作进行微小扰动, 从而大幅影响智能体的目标函数, 或通过训练具有对抗策略的智能体从而影响其他智能体决策. 对应至公式 3 中经典对抗样本 𝐱𝑎𝑑𝑣的定义, 强化学习中的对抗攻击分别从𝒮、 𝑅 和𝒜三个空间中加入噪声进行对抗攻击. 从攻击者的角度来看,基于状态和奖励的攻击需要能够获取到模型的控制权, 相比基于动作的攻击更加困难一些.

基于状态的对抗攻击 在这一节中, 本文将梳理和归纳基于状态的深度强化学习对抗攻击算法. 我们将基于状态的攻击 (如图 2)分为两类: 基于观测的对抗攻击与基于环境的对抗攻击. 其中, 基于观测的对抗攻击主要通过扰动智能体的观测值𝑠, 从而改变智能体策略 𝜋(𝑠) = 𝑝(𝑠|𝑎)来实现攻击; 基于环境的对抗攻击在环境中添加对智能体观测值𝑠的扰动的同时, 还要求此扰动符合状态转移方程𝒯 = 𝑝(𝑠 ′ , 𝑟|𝑠, 𝑎); 对于算法开销而言, 如果攻击方式仅对强化学习的单步决策进行攻击, 则攻击者通过规则直接确定强化学习需要扰动的变量, 并使用模型梯度直接生成可以攻击强化学习策略网络的噪声, 攻击开销较小. 如果攻击方式需要对强化学习的整体策略进行规划, 则攻击者所做出的决策则需要通过求解马尔可夫决策过程, 即训练一个攻击者具有的强化学习智能体获取. 随后, 攻击者在攻击阶段基于其训练的强化学习智能体生成目标噪声. 这类方法由于需要训练强化学习智能体, 攻击开销中等.

基于奖励的对抗攻击

基于奖励的对抗攻击(如图 5)主要是对目标策略的回报奖励加入对抗噪声进行干扰, 影响智能体的学习过程, 尽可能减少所学策略的回报, 从而达到攻击目的.

基于智能体动作的对抗攻击

在基于观测和基于奖励的对抗攻击外, 业内也存在不少工作从强化学习智能体行为动作方面展开对抗攻击的研究(如图 6). 一方面, 可以通过直接扰动智能体策略输出动作的概率来进行攻击; 另一方面, 可以引入另一个智能体, 使其具备对抗性策略并做出攻击性动作, 造成原智能体回报大幅下降.

小结

在本章中, 我们系统性地介绍了近年来深度强化学习领域对抗攻击的研究, 并从基于状态、基于奖励以及基于动作三个角度对这些工作进行了分类和总结.(1) 基于状态的攻击算法是针对深度强化学习的对抗攻击中研究最多、范围最广的攻击方式. 已有的工作从黑盒或白盒、训练或测试阶段等不同角度提出了各种高效的基于状态的攻击算法. 由于和经典的计算机视觉中的对抗攻击方式相似, 这类攻击算法适用范围广, 攻击效果好, 且具有丰富的研究工作作为基础. 然而, 这些算法几乎全部派生自传统对抗攻击方法, 针对强化学习任务进行了调整, 并没有提出具有足够创新性的理论改进; 与此同时, 由于本身与传统对抗攻击方法的相似性, 这些方法也容易被传统对抗防御方法克制.(2) 基于奖励的攻击算法以奖励函数投毒为基本思想, 并针对实际应用场景进行了改进, 通过对奖励函数添加噪声或符号翻转来对模型训练过程造成影响, 从而实现对抗攻击. 基于奖励的攻击方法往往不限制待攻击模型或算法, 适合用于扰动经验回放池中的奖励符号, 从而对模型训练带来长期影响. 同时, 基于奖励的攻击方法对于在线学习类的强化学习算法也有可预见的攻击效果.(3) 基于动作的对抗攻击充分利用了强化学习的特点, 抓住其与传统计算机视觉中任务的不同点进行攻击. 不同于传统的分类任务, 在强化学习任务的马尔可夫过程中, 动作既是上一次策略网络的输出, 也会影响到下一次网络自身的输入. 即对动作的扰动会带来时序层面的影响, 对网络关键输出的扰动价值也远大于传统对抗攻击. 无论是基于动作概率还是基于对抗策略的攻击, 都是强化学习领域中特定的攻击算法, 具有重要价值和挖掘潜力. 可以看到, 由于强化学习训练过程的特殊性, 存在一定量的算法是在智能体训练阶段实施攻击的. 值得注意的是, 这些攻击算法借鉴了投毒攻击 [67]的基本思想, 将加入了噪声的样本混入训练过程, 使得智能体模型在最终的测试阶段产生错误预测. 它虽然与在测试阶段直接污染测试数据的对抗攻击不完全一致, 但是其攻击目标是一致的. 在本文中, 笔者将其描述为“训练阶段的对抗攻击”. 总体来看, 针对强化学习的对抗攻击方法研究依然存在不足: 一方面, 现有的大部分工作主要是基于传统对抗攻击算法在强化学习领域的应用, 如何利用强化学习本身特性进行攻击尚有研究空间; 另一方面, 强化学习领域的对抗攻击方法普遍存在迁移性不强、难以实现的问题, 缺乏在物理世界中的实验.

3 面向强化学习的对抗防御技术

在系统的归纳总结了深度强化学习领域的对抗攻击研究后, 本章进一步分析深度强化学习领域中的对抗防御方法的研究. 与针对攻击的分析不同之处在于, 本文并没有直接基于马尔科夫决策过程四元组进行对抗防御的分类. 相反, 本章结合传统对抗防御方法的分类方式从对抗训练、对抗检测、可证明鲁棒性、鲁棒学习等角度出发, 对现有工作进行梳理总结(如表 2 所示). 笔者认为: 首先, 大量的防御方式都是用于防御状态扰动攻击, 直接从状态、奖励、动作的维度进行分类可能会造成极度的不平衡, 丧失分类讨论分析的意义; 其次, 这种分类方式可以帮助研究人员将强化学习中的对抗防御手段与经典对抗防御体系进行对齐, 更好地理解在 DRL 领域中的对抗防御算法.

在本章中, 我们针对强化学习领域中的对抗防御方法作了较为全面的回顾, 从传统对抗攻防领域中的对抗训练、对抗检测、可证明鲁棒性等防御方法出发, 对现有工作进行梳理总结. (1) 一系列工作将传统对抗攻防中的对抗训练算法迁移应用到深度强化学习领域中. 通过在智能体训练过程中引入干扰噪声(大多选用简单的 FGSM对抗攻击算法生成扰动), 对智能体的状态进行扰动进而优化智能体对于噪声的鲁棒性. 然而, 这些方法并未对强化学习本身特性进行更深入的研究, 只是将对抗训练方法的思想迁移至深度学习领域进行应用, 并未取得防御技术的发展突破. (2) 基于对抗检测的防御方法从分辨干净样本与对抗样本角度入手, 使用专门训练的检测模型分离出干净样本. 其优点在于不改变智能体的原有策略, 但这种方法的通用防御能力相对较弱, 检测器对于训练过程使用的对抗样本会具有较好的检测能力, 而一旦面对未曾在训练中出现的对抗攻击方法, 则难以有效检测出对抗样本. 基于对抗检测的防御方法适合于智能体开箱即用的强化学习场景, 从而在智能体不修改的情况提供防御能力. (3) 基于可证明鲁棒性的防御方法结合了强化学习决策过程, 通过对智能体鲁棒性下界给出证明 (如扰动半径的下界), 在理论层面为智能体鲁棒性进行了保护. 经过鲁棒认证的智能体模型能在认证范围内安全鲁棒, 但这种防御方法也存在一些限制 (如: 主要针对ℓ1 , ℓ2范数约束下的对抗样本), 与基于经验性的鲁棒防御算法的表现(如: 对抗训练) 仍有差异. 这种防御方法如果能在更多情况下推广应用(如: ℓ∞范数下的对抗样本), 将为深度强化学习在理论的鲁棒性提供有力保障. (4) 与上述防御方法不同的是基于鲁棒学习的防御策略. 这类方法针对强化学习算法的特点, 应用与算法适配的特殊方法(如: 混淆矩阵、奖励估计等)来进行防御. 这类防御方法与强化学习算法场景紧密耦合, 在其它算法上难以进行通用的适配. 然而, 由于其和强化学习的独特关系, 这个方向具有重要研究价值和挖掘潜力.

目前而言, 针对强化学习领域中对抗防御的研究仍旧存在较大的发展空间: (1) 现有的防御方法大多是传统对抗防御算法在强化学习中的迁移应用, 未来还需要从强化学习本身特性进一步探索; (2) 现有防御方法的泛化能力不足, 需要探索更通用的防御方法, 保障智能体在动态复杂环境面对不确定干扰时的鲁棒表现; (3) 目前主要的防御方法都是针对于状态扰动攻击的加固, 而针对于其他类型对抗攻击的防御较少. 分析其背后原因可看到: 基于状态扰动攻击的定义与计算机视觉领域中的对抗样本较为相似也是相对最早被提出、有大量研究基础的一种攻击方法, 因此催生了大量的防御算法. 相反, 其他类型的攻击, 如: 基于动作的攻击和基于奖励函数的攻击都有特殊的要求 (如: 要求在零和博弈场景中进行或直接改变奖励函数), 直接防御的难度较大, 相关的防御研究也较少.

4. 基于对抗攻击的深度强化学习机理

理解与模型增强在本章中, 我们将介绍和分析在深度强化学习领域除了对抗攻防之外的对抗样本相关的研究工作, 主要分为: 使用对抗样本来分析深度强化学习的脆弱性机理以及提升智能体的任务相关能力两个部分, 如表 3 所示. 可以看到, 这部分研究的第一篇相关论文发表于 2021 年, 是一个仍处于初步探索阶段的新兴方向. 然而, 这个领域的探索向研究人员证明了: 对抗样本对于深度强化学习并非百害而无一益, 通过适当的手段, 对抗攻击也可以变成一种提升对于深度强化学习可解释性和能力的工具. 因此, 这个新兴的领域定会在未来成为深度强化学习对抗攻击领域的一个重要研究方向.

5. 结论

深度强化学习的广泛应用引起了大量研究对于其对抗鲁棒性的关注. 本文对于深度强化学习领域对抗攻防技术的前沿研究进展进行了一次全面的综述. 本文首先阐述了基于状态、基于奖励以及基于动作的深度强化学习对抗攻击进展; 本文接着从对抗训练、对抗检测、可证明鲁棒性和鲁棒学习的角度归纳总结了深度强化学习领域的对抗防御技术; 最后, 本文分析了基于对抗样本的深度强化学习机理理解与模型增强并讨论了领域内的未来研究方向. 虽然研究人员在深度强化学习领域开展了大量对抗攻防的研究, 然而领域内还存在多个亟待解决的问题和挑战制约着深度强化学习对抗攻防研究的发展, 如: 面向物理世界的深度强化学习对抗攻防仍鲜有探索、缺乏统一标准的对抗攻防评测基准环境等. 希望本文能够帮助更多研究人员投身于研究和构建更加安全可靠的深度强化学习技术之中.

成为VIP会员查看完整内容

相关内容

深度强化学习

关注 156

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

安全强化学习综述

专知会员服务

67+阅读 · 2023年8月23日

基于课程学习的深度强化学习研究综述

专知会员服务

58+阅读 · 2022年11月28日

基于通信的多智能体强化学习进展综述

专知会员服务

112+阅读 · 2022年11月12日

「深度学习视频分析系统」最新2022研究进展综述

专知会员服务

43+阅读 · 2022年11月5日