【普渡大学博士论文】对抗性攻击与防御的神经表示，123页pdf

神经表示是在神经网络前馈过程中生成的高维嵌入。这些嵌入压缩了原始输入信息，并提取对下游任务有益的抽象特征。然而，由于其固有的复杂性，有效利用这些表示仍然是一个挑战。这种复杂性源于输入与神经表示之间的非线性关系，以及学习过程的多样性。

在这篇论文中，我们提出了有效的方法，利用神经表示进行对抗性攻击和防御。我们的方法通常涉及将复杂的神经表示分解为更小、更容易分析的部分。我们还寻求在学习过程中出现的一般模式，以更好地理解与神经表示相关联的语义含义。

我们证明，形式化神经表示可以揭示模型的弱点，并帮助防御毒害攻击。具体来说，我们定义了一种使用神经风格的新型对抗性攻击，这是神经表示的一个特殊组成部分。这种新攻击揭示了模型脆弱性的新方面。此外，我们通过近似它们的边缘分布来解释神经表示，将中间神经元视为特征指标。通过正确利用这些丰富的特征指标，我们解决了与像素级限制相关的可扩展性和不可察觉性问题。

最后，我们发现神经表示包含了关于神经网络如何做出决策的关键信息。利用神经表示中的一般模式，我们设计了算法，从神经网络中移除不需要的和有害的功能，从而减轻毒害攻击。

神经网络容易受到攻击。根据威胁模型的不同，这些攻击可以有多种目的，如模型窃取[1]、成员资格推断[2]和输出操纵[3]。本论文主要关注输出操纵攻击，通常称为对抗性攻击。对抗性攻击广泛分布在图像[3]、视频[4]、文本[5]和图[6]等领域。我们的研究重点是图像领域，因为它被广泛探索，并且有多个基准进行全面和公平的比较。基于攻击者针对的学习流程部分，对抗性攻击可以进一步分为两个主要类别：投毒攻击和规避攻击。在规避攻击中，敌手在推断过程中篡改输入以改变输出；在投毒攻击中，敌手向模型注入后门以供后期利用。

神经网络的脆弱性有多种因素导致，包括数据稀缺、过拟合和学习偏见等。理解这些弱点并进一步改进神经网络是至关重要但又具有挑战性的任务。为了更有效地确定这个问题的瓶颈，可以将神经网络与经典统计模型（如逻辑回归）进行比较。这两种类型的模型都面临着过拟合和学习偏见等类似问题。然而，由于它们闭合的分析形式，我们可以优雅地推导出统计模型的样本复杂性以防止过拟合，或者使用核函数来满足它们固有的线性分离要求。遗憾的是，这些技术不适用于神经网络。

神经网络的分析因其非线性变换、实际数据分布和学习过程的复杂性而变得复杂。这些复杂技术的结合似乎使模型难以分析或进一步利用。因此，对抗性攻击和防御的常见方法是将神经网络视为黑盒，只关注输入和输出，而忽略中间层产生的丰富信息。然而，我们认为这被忽视的信息可以增强我们对模型弱点的理解。在这篇论文中，我们提出使用一种名为神经表示的关键工具来促进分析。神经表示是在前馈过程中自然出现的高维嵌入，包含了来自原始输入的精炼信息，用于下游任务。它们揭示了从输入到输出的转换路径，为完成任务提供了新的视角，这对设计攻击和防御可能是有益的。

与理论分析相比，基于神经表示的分析可能更加实用和富有成果。利用神经表示简化了问题，并在一定程度上减少了对非线性变换、数据分布和优化过程的依赖。不同于可解释性，利用神经表示不涉及人类认知的一致性。相反，我们的目标是发现并利用这些神经表示中存在的一般模式。

然而，接近神经表示带来了挑战。由于神经表示可能因不同的神经网络架构、数据分布和初始起点而异，对这些表示进行建模会产生高复杂性。这种不确定性使得设计一种通用方法来接近神经表示变得困难。因此，我们转而将我们的范围限制在每个应用的基础上，展示神经表示如何在各种攻击和防御问题中被利用。我们希望读者能够了解到利用神经表示的一般趋势和技术。

我们首先展示了神经表示如何用于对抗性攻击。对于规避攻击，攻击者通常假设生成在给定集合内的样本。这个集合表示从人类的角度看类似的语义变化。攻击者将在集合内仔细构造一个扰动来改变模型的行为。一个悬而未决的问题是如何设计一个可行且有意义的集合，同时仍满足语义相似性。

现有工作考虑了添加到每个像素的范数受限像素级噪声[3]。进一步的工作[7]使用投影梯度下降来加速攻击过程。尽管范数受限攻击极其成功，但它缺乏进行像颜色和全局纹理变化等语义变化的能力。这些全局意义上的变化会引起大的像素级距离。为了构建这样的攻击，因此重要的是要正确重新定义攻击者的能力。一种可能的解决方案是通过与风格相关的神经表示来定义这种扰动集。

除了缺乏语义变化之外，对抗性样本在大距离范数受限扰动下也呈现出不自然的效果。当攻击一个强化和稳健的模型时，通常需要大的距离。基础问题是，常用的像素级限制会独立改变每个像素。不协调的变化很容易造成视觉伪像。为了缓解这个问题，寻找有效的约束以更好地协调个别像素的协同变化是重要的。一种可能的解决方案是利用高级神经表示来约束这种协同变化。

神经表示对于后门攻击的防御也很重要。一种广泛采用的方法是通过微调或对后门模型进行轻微修改来移除注入的后门。然而，当攻击者在模型中植入了深层且稳健的触发器时，这种轻微修改通常效果不佳。而较大的修改将会大幅度降低模型的正常功能。通过在恢复这种正常功能时使用神经表示，我们可以更好地移除注入的后门。

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【牛津大学博士论文】理解深度强化学习的表示学习，228页pdf

专知会员服务

59+阅读 · 2024年1月6日

【MIT博士论文】建模神经网络表示空间的几何结构，365页pdf

专知会员服务

55+阅读 · 2023年11月11日

【阿姆斯特丹博士论文】深度强化学习中的对称性和结构,149页pdf

专知会员服务

23+阅读 · 2023年8月31日

【牛津大学博士论文】神经网络中的核与特征学习，160页pdf

专知会员服务

64+阅读 · 2023年6月29日