《自主网络防御：从实验室到行动的路线图》2023最新47页报告

乔治敦大学安全与新兴技术中心（CSET）和艾伦-图灵研究所新兴技术与安全中心（CETaS）的这份联合报告评估了目前自主网络防御的最先进水平及其未来潜力，确定了进展的障碍，并建议采取具体行动来克服这些障碍。这些发现和讨论将与参与开发自主网络防御能力的网络安全从业人员、政策制定者和研究人员有关。

鉴于网络攻击造成的巨大经济和社会损失以及人工智能（AI）的最新进展，近年来，人们对应用人工智能加强网络防御的兴趣越来越大。对自主网络防御的研究正在扩大，它不仅可以检测威胁，而且可以参与防御措施，如加固或恢复。本报告重点关注创建这些自主网络防御代理的一种有前途的方法：强化学习（RL）。

自主网络防御没有一个统一的定义，但在最基本的层面上，这些代理将完成人类网络防御者的一些任务，保护网络和系统，检测恶意活动，并对异常或恶意行为作出反应，但要以数字攻击的速度。

本报告提出了自主网络防御的拟议定义，调查了自主网络防御的现状以及该技术成为可行的网络安全工具所必须克服的相关挑战。不能保证自主网络防御会成功，但该技术正处于一个需要政策支持的阶段，以实现潜在的好处，并帮助网络防御者处理现代网络安全行动的速度和不确定性。

RL是创建网络防御代理的领先AI方法，这是有效的自主网络防御的核心要求。2012年，当RL代理首次在简单的雅达利游戏中击败人类专家时，这项技术的地位日益突出。在这一成功的基础上，从2015年到2018年，DeepMind为更具挑战性的游戏建立了系统，包括围棋和国际象棋，取得了意想不到的成功水平。研究人员对RL趋之若鹜，部分原因是这些成功，但也是因为OpenAI的一个开放框架，它允许创建简单的模拟训练环境或 "健身房"。OpenAI健身房的形式简化了研究和开发，在过去的几年里，网络健身房已经开始出现，允许训练和创建网络防御代理。甚至在最近，这些健身房成为名为 "网络自主实验健身房"（CAGE）的公开网络安全竞赛的一部分。

我们的研究立足于基于强化学习（RL）的人工智能代理的潜力，以提供实现部分或全部自主网络防御概念所需的自主能力。虽然与自主网络防御有关的有前途的相关建模方法、技术和工艺的范围很广，但我们对RL的关注是由于在网络防御中应用RL的努力增加，以及RL在其他问题领域取得的可喜成果。

虽然自主网络防御的核心技术在过去十年中进展迅速，但在系统能够投入使用之前仍有许多挑战。在这个研究项目的过程中，我们采访了政府和非政府专家，以确定建立和部署可信系统的要求，其中包括：

适应性--一个潜在的自主网络防御系统将需要对网络威胁环境的变化做好未来准备。
可审计性--自主网络防御系统必须能够生成日志，并将代理人的决定和采取行动的理由归档，以便进行审查和审计，尽管操作节奏可能超过人类能力。审计日志也可以用来保证所采取的行动是合法的和相称的，并遵守商定的规范。
可指导性 - 人类操作者需要能够在需要时重新指导或终止系统。
可观察性--系统需要为人类操作者提供足够的数据采集和分辨率，以提供准确的、最新的态势感知，并提供系统性能指标以支持人类监督。
安全性--自主网络防御系统和其中的代理都需要保证安全，防止被泄露、被盗或被破坏。
可转移性--自主网络防御代理将需要在实际环境中部署，而这些环境与他们所受的训练不完全相同。

为了满足这些要求并继续取得进展，自主网络防御这一新生领域需要得到培育。RL最近才开始在网络安全方面起飞。近年来，学术出版物激增，培训网络RL代理也开始大量涌现。然而，与这些代理将面临的更复杂的现实世界的网络环境相比，能力仍然是初级和不完整的。持续的资金、协调的努力以加强模拟、仿真和评估工具、确保熟练的人员，以及提供对现实数据和基础设施的访问，将有助于确保进展。

如果能够克服技术挑战，自主网络防御有很大的发展潜力。目前为网络防御建立的代理和环境考虑的变量和可能性比更著名的RL代理（如围棋或视频游戏如Atari或DOTA2）少。这意味着有足够的潜力让代理越来越智能；它们可以管理更多可能的防御行动，并在更复杂的环境中运作，需要它们探索更多的情况。我们对技术挑战的探索表明，自主网络防御将是一个长期的雄心壮志，只能在未来几年内实现。

建议

尽管在自主网络防御领域取得了重大进展，但我们的研究表明，还没有自主网络防御系统被实际部署。鉴于目前技术的成熟度，我们提出了发展这些能力以使技术成熟的建议（建议的完整清单见第4节）。

对扩大规模进行投资。该领域可以通过做更大、更真实的网络模拟，纳入更复杂的场景和攻击者的行为来改进。更高的保真度将导致更有能力的网络防御代理。此外，发布和维护工具，如健身房或训练有素的代理，可以帮助吸引学术界或其他研究人员来做这项工作。最后，持续的资金也将使研究人员更容易向这些项目看齐。

建立并提供测试和训练场。更大和更复杂的代理将需要更多的计算密集型训练和测试，这可能使一些研究人员的资源紧张。建立和维护大型计算系统也是一个挑战，这需要难以得到的人才。提供必要的基础设施、人才和资金资源--也许是以补贴成本的方式，也可以帮助加速进展并提供连续性。

协调数据共享。政府和行业的政策制定者有权力发布有关需要防御的网络和他们所观察到的威胁的网络数据。这些都是需要仔细考虑的微妙问题，但只要共享数据能改善网络安全，所有组织都会受益。

举办比赛。继续举办自主的网络防御竞赛，并辅以财政奖励，作为改善健身房和代理商的一种手段，同时培养未来的人才。

优先考虑能使自主网络防御的利益最大化的领域。并非所有的网络防御情况都需要自主代理，如速度不是限制因素或防御已经有效的情况。优先考虑自主性影响最大的领域可以帮助指导研究。同样地，一些技术，如漏洞发现，对防御者或攻击者都有帮助。政策制定者应投资于研究，以确定哪些情况和技术会导致更好的防御，而不是改进攻击。

确定防御者代理是否需要攻击者代理。在创建现实的模拟时，不清楚在多大程度上可以在没有进攻者代理的情况下建立防御者代理来驱动它们。研究人员和政策制定者应该探索在不牺牲防御者有效性的情况下限制进攻代理的能力的方法，并对代理技术和知识的扩散建立严格的控制。他们还应该投资于研究，以了解哪些具体情景和技术需要进攻性制剂。

确定自主网络防御代理的授权门槛。自主网络防御代理将需要达到对一个组织的高度信任，以获得高度的自主权。需要制定政策指导，为能力和可信度设定初始目标，与代理被授权做出的决定的风险相匹配。这种指导可以类似于为自主车辆制定的自主水平。它们也可以根据情况或威胁环境的各个方面而变化。