执行摘要

本备忘录报告是对美国海军研究实验室（NRL）资助项目 "对抗性在线学习"研究成果的总结，该项目资助周期为2017财年到2020财年。其主要目标是研究和展示在线机器学习算法的安全漏洞，并以博弈论分析和计算方法为支撑进行利用和反制。

1. 目标

对抗性在线学习项目中的目标是研究和展示在线机器学习算法的安全漏洞，并以博弈论分析和计算方法来支持开发和反措施。人工智能和机器学习算法经常被建模为具有单一目标函数的解决方案，这暗示着存在非智能对手。对抗性环境意味着有多个具有竞争性目标的智能Agent，需要一种更复杂的解决方法，这正是我们所寻求的。

2. 背景/动机

美国海军研发框架（Naval R&D 框架）包括机器学习和推理算法，其是自主和无人系统的智能推动器。这项研究将学习与推理相结合，以减轻对手对数据的欺骗性操纵，从而影响旨在保护我们资产的在线学习算法的预测。此外，为了实现信息主导地位，未来的系统必须包括利用和操纵对手数据的能力，并保护我们数据的完整性。这项研究在信息主导权方面具有防御性以及进攻性的用途。

美国海军信息优势路线图预测，未来的作战环境将是高度竞争和信息密集的。它要求对对手进行快速分析和生成情报。探测对手的算法正在改进并变得越来越动态。然而，这些算法并不 "知道 "何时以及如何通过欺骗来隐藏自己的弱点，或对冲他们对数据的欺骗性操纵的预测，而这正是本研究的目标。

四年一度的国防审查和国防战略越来越强调网络空间对国家安全的重要性以及潜在对手探测我们关键基础设施的风险。减轻网络风险需要发展创新的行动概念，以挫败对手战略。

3. 技术方法

技术方法是基于一个博弈论的计算框架，我们将对抗性机器学习的问题视为一个被称为学习器或防御器的机器学习算法与对手或攻击者之间的博弈。

对抗性机器学习的背景。我们的研究主要考虑有监督的机器学习算法。在有监督的机器学习中，学习器被提供了一组称为训练集的样本。训练集中的每个样本都可以被看作是从一组输入变量或特征到称为标签或类别的输出变量的映射。学习器的目标是通过观察训练集中的样本（输入和输出对）来学习这种映射。训练结束后，学习器使用其学到的映射来预测输入的标签，称为查询，其输出或标签并没有提供给学习器。换句话说，机器学习算法使学习器能够自动确定一个查询的输出。举个例子，如果学习器是一个自动的垃圾邮件过滤器，对学习器的查询可能是一个电子邮件的文本，而学习器则输出该邮件是否是垃圾邮件。对抗性机器学习为上述机器学习问题增加了另一个层次的复杂性：对抗者通过不知不觉地修改有效的查询来向学习器提供可疑的查询，从而误导学习器的输出。例如，一个垃圾邮件发送者可以改变合法电子邮件中的有效超链接的几个字符，并将超链接重定向到一个恶意网站，使该电子邮件成为有害或垃圾邮件。但是，学习器可以把不正确的超链接解释为一个打字错误，并把修改后的电子邮件归类为非垃圾邮件。对手略微修改合法软件可执行文件的类似活动可以将良性软件转化为恶意软件，从而绕过自动恶意软件检测器，严重损害受保护的计算机系统。显然，在对抗性机器学习中，学习器有两个目标：其主要目标是学习有效训练实例的基础功能，此外，还要学习识别和正确分类对抗者发送的查询。在本报告的其余部分，我们根据讨论的背景，交替使用了学习器和防御器，以及攻击者和对手这些术语。

我们的技术方法将学习器和对手之间的互动建模为一个2人博弈。为此，学习器从过去与对手的互动中建立了一个对手的行为模型。然后，学习器与对手的模型进行多次互动，称为博弈，以便从对手那里获得不同的攻击策略并确定相应的反应。例如，在我们的自动垃圾邮件检测器学习者的例子中，学习器收到的询问是对对手的模型所发送的电子邮件文本的不同修改。然后，学习器计算出适当的反应，以正确归类敌方的电子邮件以及来自非敌方的合法电子邮件。我们在学习器与对手的博弈框架中考虑了三个主要方向，如下所述：

1.机器探测：我们专注于两个问题：（1）如何找到学习器的盲点以操纵预测，以及（2）如何探测学习器以泄露有关其可预测性的信息以达到规避目的。这种类型的互动对应于探索性攻击，试图获得关于学习器的信息（例如，它的偏见、它的特征或它的训练数据）。

2.机器教学：这里的主要问题是如何毒害学习者，使其在尽可能少的尝试中做出不准确的预测。这种类型的互动对应于通过训练数据直接影响学习器的致病攻击。机器教学被认为是机器学习的一个逆向问题，它将目标模型映射到一组样本上。

3.反制措施:这方面的研究解决了从机器探测和机器教学中引出的漏洞。我们努力开发一个元学习器，作为学习器的封装，它将权衡学习器的行动与自适应对手的关系，后者根据学习器的预测动态地演变其战术。对于博弈的每个方面，探测或教学，我们在对手和学习器之间设置了一个博弈，对手的行动是对数据的操作，而学习器的行动是使用哪种策略来进行预测或摄取数据。收益是错误分类风险和学习器特征评估成本与修改对手数据成本的比值。我们的评估基于与非对抗性学习器的性能差异。

总之，我们的技术方法是在机器学习和计算博弈论的交叉点。该研究涉及分析和开发攻击者与防御者之间的博弈，其中对手试图回避或学习学习器使用的机器学习算法的信息，对手试图主动修改学习器使用的机器学习算法的机器教学，以及反制措施，即学习器学会对对手的机器探测和机器教学相关行动做出战略反应。