XAI+网络安全？布兰登大学等最新《可解释人工智能在网络安全应用》综述，33页pdf阐述其现状、挑战、开放问题和未来方向

2022 年 7 月 3 日 专知

在过去的几年里，人工智能(AI)技术已经被应用到人类生活的几乎所有垂直领域。然而，人工智能模型产生的结果往往滞后于可解释性。AI模型经常出现在开发人员无法解释或追溯特定决策背后的原因的黑箱中。可解释AI (XAI)是一个快速发展的研究领域，它有助于提取信息，并以最佳的透明度将生成的结果可视化。本研究对XAI在网络安全中的应用进行了广泛的综述。网络安全能够保护系统、网络和程序免受不同类型的攻击。XAI的使用在预测此类攻击方面具有巨大的潜力。这篇论文简要概述了网络安全和各种形式的攻击。然后，讨论了传统AI技术的使用及其相关挑战，这打开了XAI在各种应用中的使用的大门。介绍了XAI在各研究项目和行业中的实施情况。最后，从这些应用中吸取的经验教训被强调为未来的研究范围提供指导。

引言

网络安全是程序、控制和技术的应用，以保护数据、程序、网络和系统免受潜在的网络攻击。与网络安全相关的各种工具和技术旨在对抗针对组织内部或外部环境中存在的网络系统和应用程序的威胁。统计数据显示，数据泄露造成的平均损失在全球范围内为386万美元，在美国上升到864万美元[2]。这些成本不仅包括违约的直接影响，还包括后续调查，以确定违约的原因、相关的应对措施、收入损失、停机时间，以及最重要的声誉品牌损害[3]。

考虑到这些成本，大多数组织都采用了基于主流最佳实践的网络安全策略。有效的网络安全策略通常包括分层保护，对网络攻击提供防御，以保持网络资产的机密性、完整性和可用性。这类战略的实施还旨在防止对用户或知名组织进行财务勒索，妨碍正常的商业运作。因此，在这方面部署明智、有效和高效的应对措施是绝对必要的。例如，美国国家标准与技术研究所(NIST)开发了一个网络安全框架，帮助各组织保护它们的计算机系统、网络和用于实现国家安全、公共卫生、安全和各种其他行政活动的各种其他资产。国际标准组织，即ISO27000系列资讯保安标准，旨在满足类似的需要。尽管存在这样的方法和标准，攻击者仍然在安全框架中发现漏洞，这些漏洞可以绕过极其强大的防御措施。在大流行危机期间，当专业规范从办公室变为在家工作时，网络安全威胁还观察到与远程访问工具、云服务和其他远程工作工具相关的漏洞也发生了变化。[4]。这些不断发展的威胁包括恶意软件、勒索软件、网络钓鱼、内部威胁、分布式拒绝服务(DDOS)威胁、高级持续威胁(APTs)、中间人攻击和各种其他[5]。

网络安全框架和相关最佳实践能够在不损害用户隐私和客户体验的情况下保护机密信息，从而有效减少网络漏洞。更具体地说，身份和访问管理(IAM)，例如，框架用户角色和访问权限，建立标准，访问权限可以被监控。IAM技术包括单点登录功能，其中用户访问网络时无需多次重新输入证书。IAM还可以提供多因素认证和特权用户帐户，只提供对特定合法用户的访问，减少欺骗性访问的可能性。这些工具增强了终端用户设备中异常活动的可见性。此外，在出现安全漏洞的情况下，这些工具可确保加速调查、响应、隔离和遏制与安全漏洞相关的所有组件。

有各种综合的数据安全平台，包括分类、权限分析、行为分析和合规报告等功能。这些平台的主要目标包括在混合云和多云环境中保护敏感信息。这些平台提供自动、实时的可见性、入侵警报和对数据漏洞[6]的监控。例如，安全信息和事件管理(Security information and event management, SIEM)是安全信息管理(Security information management, SIM)和安全事件管理(Security event management, SEM)的结合，对应用程序和网络硬件产生的安全告警进行自动化实时分析。这些产品包括智能和先进的检测方法，用户行为分析和人工智能/机器智能(AI/ML)，以检测软件产品和服务领域的异常[7]。

网络安全风险管理有助于理解安全威胁的各种特征，以及个人和组织层面的相关内部互动。最低合理可行(ALARP)是一个类似的风险管理原则，强调网络风险。这一原则确保通过将风险与解决相同问题所需的时间和资源进行比较来减少剩余风险。其理念是分析降低风险所涉及的成本，并确保其与所获得的利益不成比例。网络/信息安全的所有现代风险管理解决方案都着眼于降低风险影响，从而平衡减少或缓解风险影响的相关成本。

值得一提的是，ISO27000这类国际标准家族的范围，强调了与网络安全风险相关的信息安全管理系统文档的创建和管理。该标准由14个组和35个控制类别的114个控制组成，涵盖了组织网络安全的所有方面。为了适用该标准，必须评估现有风险，确定适用的控制措施，评估这些控制措施带来的缓解效果，评估应用这些控制措施的成本，还必须评估所引入的任何次级风险的缓解效果。控件将被应用于：

(1)该风险经评估超过该组织的风险承受能力;

(2)成本控制的应用被认为是可以接受的;

(3)二次风险不排除应用。

人工智能如何帮助网络安全

机器学习(ML)算法是在以往经验的基础上训练的，以便做出类似人类行为的决定。此外，ML算法还被用于检测与安全威胁和[8]漏洞相关的异常和威胁。此外，在过去几年中，基于机器学习的自动化安全工具已经得到了发展，它们可以自动响应威胁，执行诸如聚类、分类和回归[9]等任务。聚类是一种将数据根据其特征的相似性进行分组的过程。聚类中的数据对象彼此相似，但又不同于其他聚类中的数据对象。因此，聚类分析可以对没有预定义类的数据进行无监督分类。另一方面，分类有助于预测给定数据点的类别。分类器使用训练数据来理解输入变量是否属于一个特定的类别，使用无监督学习技术。回归分析是一种统计技术，它建立因变量和独立预测变量之间的关系与许多独立变量之一。

AI和ML也被用于主动的漏洞管理。基于AI/机器学习的用户和事件行为分析(UEBA)工具分析服务端点和服务器上的用户交互，以检测异常行为。这有助于在[10]漏洞报告或修补之前为组织提供提前保护。

反病毒检测是人工智能技术发挥重要作用的一个领域。最主要的方法是启发式技术、数据挖掘、代理技术和人工神经网络[11]。例如，Cylance智能防病毒产品是为了满足类似的目标，为家庭从合法数据中检测恶意软件提供企业级的基于人工智能的安全。该产品完全在执行点消除了威胁，而不需要任何人工干预[12]。有许多传统的身份验证系统使用用户名或电子邮件和密码作为一种身份验证方法。人工智能的使用有助于检测易受攻击的密码，并用于基于生物识别的认证系统，提供更强的保护层，黑客难以入侵。生物识别系统主要用于企业和政府组织的安全和访问控制。生物识别系统可分为物理识别系统和行为识别系统。物理生物识别系统使用人体的物理、可测量和独特的信息，如DNA、静脉、指纹、虹膜等，并将这些信息转换为人工智能系统可以理解的代码。相反，行为识别系统捕捉独特的行为特征，如声音、个人打字节奏、与物体的交互方式，然后将这些编码信息存储在数据库中。在身份验证和验证过程[13]期间对该信息进行数字戳记。

AI在网络安全方面的局限性使XAI成为必要

人工智能在网络安全领域的应用带来了许多挑战。特别是，人工智能应用引入了大量的反指示和次级风险，它们成为恶意行为者发起攻击的载体。例如，攻击者可能会成功地避开基于ML的检测。更具体地说，攻击者可能会操纵恶意软件文件，使基于人工智能的检测框架无法识别任何恶意或异常活动，这就是通常所说的规避攻击。类似地，基于人工智能的网络安全应用也存在各种威胁，如图1所示，涉及通信拦截、服务失败、事故、灾难、法律问题、攻击、停电和物理损害。

基于人工智能的系统的成功取决于数据的可用性。基于人工智能的系统引发了两类次级风险。第一种类型包括产生假阴性结果导致不准确决策的风险。第二种包括产生假阳性结果的风险，其中存在不准确的通知或假警报的可能性。[14]。在这种情况下，迫切需要确保采取必要的缓解措施，确保更准确地处理违约或异常事件的情况，从而保持所作决定的可解释性和合理性。

实时AI系统通常会消耗大量的计算能力、数据和原始内存资源需求。这些系统还需要更高水平的专业知识来构建和维护[16]，因此部署成本非常高。人工智能生物测量系统也面临着类似的挑战，与上述问题相关，这些系统也容易受到信息泄露风险的影响。网络安全公司主要使用人工智能来开发鲁棒和安全的系统。相反，这些系统经常被黑客出于不道德的目的而破坏，这些黑客训练或变异恶意软件，使其具有AI免疫力，其行为与传统系统相比异常。人工智能的使用使黑客能够挫败安全算法，使数据操作不被发现，从而使组织极其难以纠正输入基于人工智能的安全系统的数据。因此，当前基于人工智能的系统面临的挑战在于，与基于模型的传统算法[17]相比，它们的决策缺乏合理性和合理性。如果系统不能理解并从网络安全事件中吸取教训，那么无论基于人工智能的系统多么强大和准确，网络安全都将成为一个具有普遍二级风险的黑匣子。

人工智能威胁体系

在深度强化学习的情况下，被确定为某些反应的原因的显著特征，通常仍然无法解释。例如，可以考虑贝叶斯推断的计算，其中产生的结果的准确性往往受到数据不足的问题的影响。这就需要统计AI算法来帮助量化这些不确定性。但是这种统计AI算法的结果往往难以解释，因此，XAI通过为基于AI的统计模型产生的结果提供可解释性来发挥其作用，为研究人员和专家提供理解因果推理和原始数据证据[18]的能力。同样，在医疗保健领域，XAI的实施首先允许机器分析数据并得出结论。其次，它使医生和其他医疗保健提供者能够获得解释如何做出特定的决策。在制造业中，基于人工智能的自然语言处理(AI-based natural language processing, NLP)帮助分析与设备和维护标准相关的非结构化数据，这些数据与结构化数据相关联，即工单、传感器读数等业务流程数据。这有助于技术人员在他们的工作流相关操作方面做出最佳决策。

XAI能提供什么帮助

人工智能模型已经成功地应用于许多日益复杂的领域，通过其基于复杂数据集的合成能力补充和增强人类的能力。计算能力的提高进一步扩大了通过人工智能提供解决方案的范围，人工智能应用的增长呈可视化指数增长。因此，在关键任务设置中对此类AI应用的需求迅速增长，其中AI被嵌入到众多硬件智能设备中，从而实现无监督或远程控制使用。然而，人工智能的应用带来了相关的重大问题。过拟合，是监督式ML中的一个基本问题，其中统计模型与训练数据完美匹配，阻碍了其在数据未知情况下的准确分析能力。当它捕捉到数据中的噪声和不准确的值时，模型的效率和精度会下降(Ying, 2019)。过度拟合模型的使用会导致AI性能下降，在关键任务设置中，可能会导致不准确的决策、经济损失、身体伤害甚至死亡。

通过对模型的机制和推理的理解，可以在一定程度上减轻这些风险。不幸的是，传统AI系统的黑箱特性成为瓶颈，即使是AI专家也无法提供合理的解决方案[19,20]。因此，透明度是必要的，它将使明智和合理的决策制定成为可能，并有助于为模型的行为提供准确的解释。例如，在网络安全系统的情况下，不合理和误导性的预测可能会使系统非常容易受到攻击，导致完全不安全的关键系统。随着可解释人工智能的实施，提供实用的、实时的基于人工智能的解决方案将变得更加容易，因为数据集中的偏见可以完全消除，从而导致公正的决策。解释性结果使人工智能解决方案更加稳健和可信，确保有意义的变量推理和模型推理的基础。传统的基于深度神经网络的模型(DNN)非常流行，但其可解释性滞后。例如，对于id，网络管理员很难理解入侵检测背后的原因，并将其转化为黑盒模型。在这种黑盒模型中，涉及决策制定的过程是具有挑战性的，因为DNN在试错过程中编辑特征，以生成理想的解决方案。尽管对基于ML的入侵检测系统进行了大量的研究，但在得出与攻击分类、异常流量行为识别和模型自动构建相关的结论时，很少对结果的基本推理或解释进行探讨。决策树(DT)作为一个完美的模型来支持对结果预测的解释。DT分析的结果不基于任何与数据分布相关的假设，并且有效地处理了特征共线性问题。因此，可解释AI系统的实现使网络管理员能够分析、解释和洞察IDS系统的安全策略[21,22]。在本文中，我们探讨了网络和人工智能风险的竞争本质，并探讨了XAI作为人工智能风险的主要控制手段的潜力。关于XAI在网络安全中的应用已经进行了大量的研究。本节将讨论其中一些研究。[23]的研究提出了一种新颖的黑盒攻击，该攻击实现了XAI，损害了相关分类器的隐私和安全性。本研究采用反事实解释(CF)生成方法实现基于梯度的优化。本研究中使用的CF方法包括潜在CF技术、多元反事实解释(DiCE)技术和permute攻击(对反病毒引擎执行端到端规避攻击)。他们还执行成员推断攻击，这有助于链接用户，并从泄露的数据集窃取他们的密码，从而对同一数据集发起中毒和模型提取攻击。该研究评估了与每种攻击有关的安全威胁，并向用户和攻击者提供了能够避免和减轻风险的范围。[24]的研究提出了一种方法来解释由面向数据的IDSs产生的不准确的分类。采用对抗性技术来识别输入属性中的最小修改，以准确分类错误分类的数据集样本。在[22]中，提出了一个基于深度学习的入侵检测框架。研究中可解释的人工智能技术，有助于实现ML模型的每个层次的透明度。

该研究中使用的XAI方法包括SHAP和BRCG，能够完全理解模型的行为。XAI的SHAP和CHEM技术有助于理解输入的特征，从而将决策导出为输出。考虑到分析师的视角，使用Protodash方法来识别训练数据样本之间的异同。[25]的作者提出了一种创新的方法来管理网络安全系统报警系统中的超载问题。本研究考虑实施的系统包括安全资讯及事件管理系统(SIEM)及入侵侦测系统(IDS)。将零样本学习技术与ML相结合，在框架内计算异常预测的解释。该框架的独特方法包括在没有任何先验知识的情况下识别攻击，破译导致分类的特征，然后使用XAI技术将攻击分组到特定类别中。XAI的使用有助于识别、量化因素，并了解其对特定网络攻击预测的贡献。[21]的研究提出了一种基于决策树的XAI模型的IDS增强信任管理系统。研究中使用的决策树算法帮助IDS在多个子选择中分割选择，从而为基准数据集生成规则。与传统的支持向量机(SVM)系统相比，基于决策树的XAI方法提高了精度。

虽然有各种综述文章关注AI在网络安全中的应用，但目前还没有对可解释AI在网络安全中的应用进行全面的综述，其中包括明确和广泛的信息。因此，为了弥补这一差距，本文着重对XAI在网络安全领域的研究现状、现有人工智能实施所面临的挑战、XAI的需求及其在各个领域的潜在应用范围进行了全面的综述。表2重点分析了XAI和本论文的现有工作。从用户的角度来看，使用XAI比使用AI的好处在图3中得到了强调。

综上所述，本研究的具体贡献包括: