【ETHZ博士论文】人工智能稳健性和公平性的形式化与统计认证

随着深度学习逐渐渗透到计算机视觉和自然语言等领域，并且越来越多地与可能影响人类的关键系统相结合，解决人工智能安全问题成为该领域的核心挑战之一。在这些重要系统中，首要目标不再仅仅是构建最准确的AI模型，而是构建那些既高度准确又能被证明安全的AI模型。本论文探讨了AI安全的两个重要方面：稳健性和公平性。稳健性要求模型在输入分布与训练时遇到的分布不同的条件下也能表现良好。公平性是一种安全属性，要求模型的预测对不同个体和群体是公平的。在论文的第一部分中，我们专注于稳健性。我们首先提出了一种新颖的认证方法，可以保证模型对输入变换具有稳健性，并在第二章中扩展了这一方法，使模型训练时能够被证明是稳健的。这些贡献基于诸如通过优化和采样进行认证的新技术，以及通过在凸松弛中找到对抗性样本进行训练的新方法。论文的第二部分探讨了公平性问题，我们开发了新的方法来学习可以证明满足个体或群体公平性的公平表示。此外，我们还将个体公平性与稳健性联系起来，使我们能够利用论文第一部分中的技术来解决公平性问题。

本论文中提出的方法具有广泛的应用潜力，例如，稳健性方法可以应用于更复杂的输入变换，而群体公平表示学习也可以用于将输入编码为更具隐私性的表示。我们相信，本论文中提出的方法改善了我们对可证明的AI安全性的工具集，并且在未来可能应用于更多的系统中。

在过去的十年中，深度学习取得了显著的成功。基于深度学习的模型现已应用于各种不同的领域，如推荐系统[16]、计算机视觉[17, 18, 19]，并最终应用于涉及自然语言的一般任务[20]。然而，随着深度学习模型能力的提高，人们也对其安全性产生了重大担忧，因为这些模型不仅单独使用，而是作为更大系统的一部分，其预测可能会对人类产生下游影响。例如，计算机视觉模型可以用作自动驾驶车辆的一部分，帮助其检测路标，其预测直接关系到乘客和其他交通参与者的安全性。又如，用于预测学生GPA的模型可能会用于大学录取，这意味着其预测质量可能影响个人的教育道路。这凸显了研究人工智能安全性的重要性，更具体地说，研究这些系统在最坏情况下的性能，以确保它们在尽可能多的情况下能够正确运行。

在本论文中，我们聚焦于安全AI的两个方面：稳健性和公平性。如果机器学习模型在输入变化的情况下能够正确运行，那么它就是稳健的。这些变化可能由对手故意施加（例如，有人故意在图像中添加噪声），或者在推理过程中自然发生（例如，摄像头拍摄的图像发生位移）。解决这个问题对于开发能够在环境变化时仍能良好运行的机器学习系统至关重要。公平性是AI安全性中的另一个重要议题，随着机器学习模型通常基于有偏数据进行训练，它们往往开始表现出这种偏见行为。在本论文中，我们专注于个体公平性（要求相似的个体获得相似的结果）和群体公平性（要求两个群体之间的平均预测相似）。随着机器学习越来越多地用于做出重要的社会决策，充分解决公平性问题变得尤为重要。

目标本论文的主要目标是推进能够保证机器学习模型稳健性和公平性的方法。为此，我们结合使用了形式化方法（如抽象解释和凸松弛）和统计方法（如有限样本界）。具体而言，在第3章中，我们引入了一种基于优化和采样相结合的方法，以证明机器学习模型在几何变换下的稳健性。接着，在第4章中，我们不仅考虑认证模型，还通过潜在对抗性样本的训练概念，训练模型使其被证明是稳健的。第5章首次处理了预处理输入数据的问题，从而使数据消费者可以证明个体公平性。最后，第6章介绍了一种新的预处理方法，使得转换后的输入无法用于推断敏感属性，从而保证了任何下游分类器的群体公平性。在表1.1中，我们总结了本论文的贡献，每一行对应一个章节：章节中考虑的安全属性以及用于检查安全性的关键方法。接下来，我们对本论文的贡献进行总体概述，并按照不同章节进行区分。安全属性方法章节几何稳健性优化和采样第3章局部稳健性潜在对抗性样本第4章个体公平性逻辑和连续约束第5章群体公平性通过归一化流编码第6章 1.1 第3章：几何稳健性的认证我们的第一个贡献是由一个实际场景所驱动的，在该场景中，输入首先经过几何变换，然后再传递给网络。这可能发生在拍摄图像的摄像机旋转或移动时。虽然先前的工作通过对变换中的每个操作应用区间界限来处理这个问题，但我们工作的关键见解是我们可以将其公式化为一个优化问题，该问题的解是整个变换序列的最紧线性界限。我们开发并实现了实际算法，并表明它们可以认证稳健性，以应对广泛的几何变换及其组合（如旋转、平移、剪切等），并在更多的图像上实现了显著优于先前工作的认证效果。影响第3章中提出的技术也具有更广泛的影响，后来被更广泛地应用于认证空间[5]、点云[8]和音频[7]变换的稳健性。这增加了我们成功认证稳健性的规范和领域的多样性，从而使AI的应用更加安全。 1.2 第4章：训练可被证明稳健的网络第3章的重点在于认证模型的稳健性误差，而第4章的目标是训练既具有高度稳健性又具有高标准精度的模型。这是一个重要的研究方向，因为未经此类技术训练的模型通常难以证明其稳健性。在我们在本章中提出的工作之前，训练具有高认证稳健性和高精度的网络非常困难，尤其是在较小噪声水平下。本章的主要见解是使用对抗性训练的方法，不是为了在输入区域中寻找对抗性输入，而是为了在通过网络传播的凸区域中进行搜索。这使得可证明稳健性和精度之间的权衡更加细致，最终产生了比先前工作更好的模型。影响我们的训练方法也有进一步的影响，因为大多数最新的可证明训练方法[21, 22, 23]基于与我们的相似的观察，即连接启发式和可证明的防御方法，使得能够训练出具有更好认证稳健性和精度权衡的模型。我们还研究了本章中提出的理论问题[9]，以加深对为什么某些凸松弛在训练中表现更好的理解。 1.3 第5章：可被证明的个体公平表示在第5章中，我们的概念上从稳健性转向公平性。然而，在技术层面上，本章中提出的整个思想基于个体公平性与稳健性之间的联系。更具体地说，个体公平性要求类似的个体获得类似的分类结果，这与第3章和第4章中考虑的稳健性要求输入及其邻居获得类似的分类结果相同。在本章中，我们提出了一种新的数据预处理方法（或表示学习），使数据消费者知道他们在这种数据上训练的任何模型都能被证明满足个体公平性。影响我们后来将这一方法扩展到计算机视觉模型中的个体公平性[10]，从而展示了这一框架在其他领域的广泛适用性。其他工作也将类似的方法应用于其他类型的个体公平性保证表示[24]。总体而言，本章的贡献使得训练可证明的个体公平表示在实践中更加可行。 1.4 第6章：可被证明的群体公平表示在最后一章中，我们继续研究学习可证明公平表示的概念，这次针对群体公平性定义的隐私（如人口统计平等或机会均等）。群体公平性定义在实践中往往更为广泛使用，因为它们比个体公平性更容易定义和评估，因此学习这种可证明的公平表示具有重要的实践意义。先前的工作表明，满足群体公平性与确保不能从表示中恢复敏感属性之间存在等价性。我们方法的关键思想（称为FNF）是使用基于归一化流的统计方法[25]，以计算潜在空间中表示的概率密度，从而计算出对任何对抗性分类器能够预测敏感属性的最大准确性的上限。影响 FNF也对后续工作产生了影响：在后续的论文中，我们提出了一种新的方法FARE[11]，解决了FNF的局限性（需要了解先验分布）。此外，我们还在隐私领域产生了更广泛的影响，在该领域中我们研究了从数据中预测敏感属性的问题[26, 27]，这可以视为表示学习方法。

成为VIP会员查看完整内容