执行摘要

本备忘录报告是对美国海军研究实验室（NRL）资助项目 "对抗性在线学习"研究成果的总结，该项目资助周期为2017财年到2020财年。其主要目标是研究和展示在线机器学习算法的安全漏洞，并以博弈论分析和计算方法为支撑进行利用和反制。

1. 目标

对抗性在线学习项目中的目标是研究和展示在线机器学习算法的安全漏洞，并以博弈论分析和计算方法来支持开发和反措施。人工智能和机器学习算法经常被建模为具有单一目标函数的解决方案，这暗示着存在非智能对手。对抗性环境意味着有多个具有竞争性目标的智能Agent，需要一种更复杂的解决方法，这正是我们所寻求的。

2. 背景/动机

美国海军研发框架（Naval R&D 框架）包括机器学习和推理算法，其是自主和无人系统的智能推动器。这项研究将学习与推理相结合，以减轻对手对数据的欺骗性操纵，从而影响旨在保护我们资产的在线学习算法的预测。此外，为了实现信息主导地位，未来的系统必须包括利用和操纵对手数据的能力，并保护我们数据的完整性。这项研究在信息主导权方面具有防御性以及进攻性的用途。

美国海军信息优势路线图预测，未来的作战环境将是高度竞争和信息密集的。它要求对对手进行快速分析和生成情报。探测对手的算法正在改进并变得越来越动态。然而，这些算法并不 "知道 "何时以及如何通过欺骗来隐藏自己的弱点，或对冲他们对数据的欺骗性操纵的预测，而这正是本研究的目标。

四年一度的国防审查和国防战略越来越强调网络空间对国家安全的重要性以及潜在对手探测我们关键基础设施的风险。减轻网络风险需要发展创新的行动概念，以挫败对手战略。

3. 技术方法

技术方法是基于一个博弈论的计算框架，我们将对抗性机器学习的问题视为一个被称为学习器或防御器的机器学习算法与对手或攻击者之间的博弈。

对抗性机器学习的背景。我们的研究主要考虑有监督的机器学习算法。在有监督的机器学习中，学习器被提供了一组称为训练集的样本。训练集中的每个样本都可以被看作是从一组输入变量或特征到称为标签或类别的输出变量的映射。学习器的目标是通过观察训练集中的样本（输入和输出对）来学习这种映射。训练结束后，学习器使用其学到的映射来预测输入的标签，称为查询，其输出或标签并没有提供给学习器。换句话说，机器学习算法使学习器能够自动确定一个查询的输出。举个例子，如果学习器是一个自动的垃圾邮件过滤器，对学习器的查询可能是一个电子邮件的文本，而学习器则输出该邮件是否是垃圾邮件。对抗性机器学习为上述机器学习问题增加了另一个层次的复杂性：对抗者通过不知不觉地修改有效的查询来向学习器提供可疑的查询，从而误导学习器的输出。例如，一个垃圾邮件发送者可以改变合法电子邮件中的有效超链接的几个字符，并将超链接重定向到一个恶意网站，使该电子邮件成为有害或垃圾邮件。但是，学习器可以把不正确的超链接解释为一个打字错误，并把修改后的电子邮件归类为非垃圾邮件。对手略微修改合法软件可执行文件的类似活动可以将良性软件转化为恶意软件，从而绕过自动恶意软件检测器，严重损害受保护的计算机系统。显然，在对抗性机器学习中，学习器有两个目标：其主要目标是学习有效训练实例的基础功能，此外，还要学习识别和正确分类对抗者发送的查询。在本报告的其余部分，我们根据讨论的背景，交替使用了学习器和防御器，以及攻击者和对手这些术语。

我们的技术方法将学习器和对手之间的互动建模为一个2人博弈。为此，学习器从过去与对手的互动中建立了一个对手的行为模型。然后，学习器与对手的模型进行多次互动，称为博弈，以便从对手那里获得不同的攻击策略并确定相应的反应。例如，在我们的自动垃圾邮件检测器学习者的例子中，学习器收到的询问是对对手的模型所发送的电子邮件文本的不同修改。然后，学习器计算出适当的反应，以正确归类敌方的电子邮件以及来自非敌方的合法电子邮件。我们在学习器与对手的博弈框架中考虑了三个主要方向，如下所述：

1.机器探测：我们专注于两个问题：（1）如何找到学习器的盲点以操纵预测，以及（2）如何探测学习器以泄露有关其可预测性的信息以达到规避目的。这种类型的互动对应于探索性攻击，试图获得关于学习器的信息（例如，它的偏见、它的特征或它的训练数据）。

2.机器教学：这里的主要问题是如何毒害学习者，使其在尽可能少的尝试中做出不准确的预测。这种类型的互动对应于通过训练数据直接影响学习器的致病攻击。机器教学被认为是机器学习的一个逆向问题，它将目标模型映射到一组样本上。

3.反制措施:这方面的研究解决了从机器探测和机器教学中引出的漏洞。我们努力开发一个元学习器，作为学习器的封装，它将权衡学习器的行动与自适应对手的关系，后者根据学习器的预测动态地演变其战术。对于博弈的每个方面，探测或教学，我们在对手和学习器之间设置了一个博弈，对手的行动是对数据的操作，而学习器的行动是使用哪种策略来进行预测或摄取数据。收益是错误分类风险和学习器特征评估成本与修改对手数据成本的比值。我们的评估基于与非对抗性学习器的性能差异。

总之，我们的技术方法是在机器学习和计算博弈论的交叉点。该研究涉及分析和开发攻击者与防御者之间的博弈，其中对手试图回避或学习学习器使用的机器学习算法的信息，对手试图主动修改学习器使用的机器学习算法的机器教学，以及反制措施，即学习器学会对对手的机器探测和机器教学相关行动做出战略反应。

4. 结果

我们按财政年度总结了项目的主要结果和成果，如下所述。

4.1 2017财年

在项目的第一年，我们研究对比了应用于网络安全的生成性和判别性机器学习（ML）模型。我们开发了一个基于深度学习的ML模型，利用字符级卷积神经网络（CharCNN）[1]将电子邮件文本数据分类为垃圾邮件或非垃圾邮件，并使用Kaggle电子邮件和安然电子邮件数据集验证了该ML模型（https://www.kaggle.com/venky73/spam-mails-dataset，https://www.kaggle.com/wanderfj/enron-spam）。我们还在[2]中发表了一个初步的基于博弈论的框架，使基于ML的分类器能够预测它所收到的查询是合法的还是来自对手的探测攻击。

该项目涉及使用快速梯度符号法（FGSM）[3]从图像数据的干净样本中生成扰动样本的算法。该技术在生成来自MIST数据集的手写数字的扰动图像方面得到了验证[4]。

4.2 2018财年

在项目的第二年，主要致力于开发ML技术，用于模拟对手生成对抗性数据的策略。最近关于最先进的网络安全技术的调查显示，电子邮件文本和网络数据包经常被攻击者用来绕过网络防御，如电子邮件垃圾邮件过滤器或恶意软件检测器[5, 6]。基于这一观察，主要使用字符串数据，如电子邮件和社交媒体上的帖子的文本数据，以及网络流量数据作为我们研究的主要数据模式。

作为第一个任务，开发了一个生成对抗性文本数据的算法。实现了Liang等人[7]的算法的一个略微修改版本，用于对文本数据样本进行最小化的扰动，以生成一个对抗性样本。Liang等人的原始算法被设计为战略性地确定在一个给定的干净文本样本中改变哪些字符和多少字符，从而使改变后的文本被分类为与干净文本不同的标签，而该模型已被预先训练为文本数据的分类。我们略微修改了算法，使干净文本中要被扰乱的字符数可以作为算法的输入参数来指定。这使我们能够对使用不同扰动量或扰动强度的对手进行建模，这与他们的能力（如可用的预算、计算资源等）相称，以从干净的数据中产生对抗性数据。

接下来，我们研究了当对手的预算有限时产生对抗性数据的问题。对用于分类查询的ML模型的参数和超参数的了解是对手产生成功规避攻击的一个关键因素。这种知识通常由对手通过发送查询和观察分类器的输出或预测来探测分类器而获得。现有的文献主要考虑了对手可用的ML模型参数知识的两个极端：白盒，即对手有完全的知识，和黑盒，即对手没有知识。白盒攻击通常需要对手有大量的预算来发送几个探针，而黑盒攻击则假设对手没有预算来发送探针并获得ML模型参数的知识。然而，在许多现实生活中，对手可能有有限的预算，可以负担得起发送几个探针以获得ML模型参数的部分知识。我们研究了一个预算有限对手的场景，称为灰盒技术[8]。我们用一个基于深度学习的文本分类器评估了我们提出的灰盒技术，同时对一个名为DBPedia（https://wiki.dbpedia.org/datasets）的开源电影评论数据集的文本数据进行扰动。我们的结果显示，我们提出的灰盒技术使预算有限的对手能够成功地生成对抗性文本数据，同时花费的成本比白盒技术低，但在误导分类器方面比黑盒技术更有效。

我们研究的最后一个问题是确定文本数据的有效向量表示或嵌入，因为有效的数据表示将使防御者的分类器能够快速计算出查询的类别或标签，同时减少错误。大多数现有的生成文本数据嵌入的技术都是在字符级或词级对文本进行编码。这两种表示法都有一定的缺陷：字符级表示法会导致非常大的矢量表示法，消耗空间并需要更多的计算时间，而词级表示法会导致对不太常用的词的矢量表示法效率低下，或者对以前未见过的词没有表示，导致在从干净的文本样本中生成对抗性样本时，矢量数学计算不精确。我们开发了一种混合的字词嵌入，其中一个叫做注意力的自适应参数被用来动态地确定是使用字符级还是字词级编码来确定一段文本中每个字的向量表示[9]。该技术在一个由学生用英语书写的考试答案的开源数据集上进行了评估，该数据集被称为 "剑桥学习者语料库-英语第一证书"（CLC-FCE）数据集（https://ilexir.co.uk/datasets/index.html）。

我们还组织并主持了一个题为 "网络安全中的对抗意识学习技术和趋势 "的研讨会，作为AAAI 2018秋季系列研讨会的一部分，在弗吉尼亚州阿灵顿举行。研讨会上，人工智能和网络安全领域的知名研究人员发表了两个主题演讲，并发表了十篇关于对抗性学习的同行评审研究论文。我们在2018年10月的 "AAAI对抗性学习技术和网络安全趋势研讨会（ALEC 2018）论文集 "上发表了在线研讨会的会议记录[10]。

4.3 2019财年

在这一年里，我们的研究重点是将博弈论与ML结合起来，以开发针对ML模型的对抗性攻击的反制措施或防御措施。我们今年的主要贡献是开发了一个新的基于博弈论的框架和算法，称为重复贝叶斯连续博弈（RBSG）。该技术使使用基于分类器的自动预测机制的学习者能够降低其分类成本，而不影响在存在对抗性输入时的分类质量。RBSG结合了一种称为联合蒙特卡洛树搜索（MCTS）的随机树搜索算法，该算法有效地探索了学习者和对抗者之间的博弈树，以及具有对手模型的强盗算法。然后，RBSG算法确定了学习者和对手的每个可能的 "动作 "或行动的效用，并向学习者推荐可能的最佳行动（换言之，具有最大预期效用的行动）。我们为这个问题建立了一个正式的数学模型，包括对防御者和对手可以使用的策略的描述，一个基于博弈论的技术，称为自我发挥，使防御者能够建立一个准确的对手行为模型，一个基于蒙特卡洛树搜索（MCTS）的算法，使用自我发挥的对手模型使防御者能够快速探索可能的策略，以及RBSG算法，使防御者能够计算像纳什均衡策略一样的战略反应，以有效地应对对手的攻击。我们验证了我们提出的在存在战略性修改文本数据的对手的情况下预测文本数据标签的技术，同时使用收集的亚马逊产品评论、Yelp商业评论和电子邮件信息的开源文本数据集。我们的结果表明，我们能够将分类成本降低30-40%，而不会降低分类器的性能指标，如准确率和精确度。

RBSG技术似乎对海军和国防部有很高的价值潜力，因为它可以降低关键应用的操作成本，如网络安全、导弹探测、雷达和其他信号分析技术，这些应用依赖于对传入数据的分类，并可能受到对手的攻击。我们通过NRL专利处理办公室为RBSG技术的潜在美国专利申请提交了一份发明披露。我们还开始与一家名为Varonis的公司探讨CRADA，以实现RBSG技术在网络安全产品上的潜在商业化。

在这一年里，我们还发表了一份关于网络安全任务中基于博弈论的对抗性学习技术的全面调查[11]。在调查中，我们将相关技术归类为攻击者和防御者之间的零和游戏和一般和游戏。我们为所调查的技术提出了一个新的分类，使用不同的类别，如防御者可获得的关于对手的初始信息，防御者建立的代表对手攻击的模型以及技术被验证的应用领域。调查的最后，我们讨论了网络安全问题中与使用对抗性机器学习技术进一步调查有关的几个开放性问题。

最后，我们为21财年6.1基础项目提出了一个题为 "用于防御应用的博弈论机器学习 "的项目，该项目扩展了本报告中的结果，使用强化学习和基于博弈论的技术，在攻击者与防御者的场景中建立有效的防御措施。

4.4 2020财年

在20财政年度，我们的研究主要集中在两个方向：研究改进RBSG技术的计算技术，以及评估RBSG在网络安全相关场景中的应用。在第一个方向下，我们开发了一种基于最近提出的基于博弈论的概念的技术，称为安全值[12]，用于计算防御者的策略。与原始的RBSG技术中基于纳什均衡的计算不同，安全值方法假设攻击者总是做出理性的决定，同时以最佳方式选择其策略（即攻击者选择一个使其效用最大化的策略），安全值方法假设攻击者可能偶尔会偏离最佳发挥，并且，使防御者能够预测并利用攻击者的偏离来改善防御者的表现（减少防御者分类器的操作成本）。我们实施了一种安全值方法，称为安全的限制性斯塔克伯格反应（RSRS），并将其与RBSG算法相结合。RSRS算法的初步结果显示，与在RBSG内部使用基于纳什均衡的计算方法的成本相比，防御者的成本有5-10%的改善。

对于第二个方向，我们研究了生成恶意软件数据的对抗性实例的技术，并建立了用于对抗性恶意软件数据分类的ML模型。生成恶意软件数据需要从干净或正常运行的软件可执行文件中创建恶意软件可执行文件。这个问题的主要挑战之一是，从图像和文本模式的干净数据中生成对抗性数据的相称技术不能直接适用于软件可执行文件，因为使用图像或文本数据扰动技术扰动可执行文件内的二进制数据可能会破坏可执行文件的功能，使其无法正常工作。我们的研究基于MalGAN[13]技术，并在EMBER[14]和Kaggle恶意软件数据集（https://www.kaggle.com/c/malware-classification/data）上进行了初步实验。我们的初步结果表明，我们的方法的性能与[13]中报告的结果相当。

我们还开始研究一种合适的技术，以正式代表网络安全场景中防御者与攻击者的互动，如网络入侵检测。具体来说，我们研究了一个正式的数学模型，称为攻击图博弈[15, 16]。在攻击图博弈中，攻击者以顺序的方式攻击网络资产，而防御者的目标是预测攻击者未来的攻击位置并保护它们。我们开始开发一种基于强化学习的算法，与纳什均衡等博弈论概念相结合，在攻击图博弈框架内为防御者确定合适的策略，同时对攻击者以前未见过的攻击、隐蔽性和欺骗性做出智能反应。该算法在网络入侵检测场景中的实施和评估目前正在进行。

我们发表了几篇关于RBSG技术研究成果的文章，包括在国防部AI/ML技术交流会议上的海报[17]，在关于AI for Cyber-Security的非存档研讨会[18]上的论文（与AAAI 2020同地举行），以及在名为FLAIRS（佛罗里达州AI研究协会）会议的同行评审存档会议上对该研讨会论文的略微扩展版本[19]。我们还在INFORMS（运筹学和管理科学研究所）2020年年会上发表了扩展摘要，并应邀介绍了我们在这个主题上的研究[20]。我们在19财年提交的RBSG技术的发明公开，在2020年7月被NRL审查小组批准获得专利申请。

我们在人工智能、机器学习和网络安全的交叉领域编辑了一本名为 "Adversary Aware Learning Techniques and Trends in Cyber-Security "的书[21]。该书由人工智能/ML和网络安全领域的知名研究人员撰写的10个章节组成，涵盖了各种不同但又相互关联的主题，包括以博弈的人工智能和博弈论作为对人工智能/ML系统攻击的防御手段，有效解决在大型分布式环境（如物联网）中运行的人工智能/ML的漏洞的方法，以及使人工智能/ML系统能够与可能是恶意对手和/或善意队友的人类进行智能互动的技术。

我们为上述书籍贡献了一章，题为 "重新思考智能行为作为处理机器学习的对抗性挑战的竞争性博弈"[22]，其中我们描述了对抗性机器学习如何需要重新审视传统的机器学习范式以及对抗性学习如何表现出智能行为。我们认为，发展对对手攻击的抵抗力可以被建模为竞争性的多人博弈，包括具有矛盾和竞争性目标的不同玩家之间的战略互动。在进一步的探索中，我们讨论了不同的多人博弈环境的相关特征，这些环境被作为研究平台来调查，以解决公开的问题和挑战，从而开发出能够超越人类智慧的人工智能算法。

继续这个方向，我们在项目中研究的最后一个研究课题是如何通过机器学习技术发展智能能力，在复杂的互动场景中，如《星际争霸-II》等实时战略多人博弈中呈现的场景，发展对对手攻击的抵抗能力[23]。我们开发了一种基于强化学习的算法，使防御者能够智能地学习博弈战术，包括何时以及部署多少游戏单位，以何种配置部署游戏单位等，以战略性地击败更强大的对手。我们在虚拟举行的2020年国防部AI/ML技术交流会上以海报形式展示了我们的研究成果[24]，我们在会上表明，由防御者利用强化学习自动学习的策略可以胜过由人类专家手工编码的基于启发式的策略。我们目前正在继续这一研究方向，同时将其扩展到更复杂的攻击者-防御者类型的交互场景中。

成为VIP会员查看完整内容