随着深度学习逐渐渗透到计算机视觉和自然语言处理等领域,并越来越多地与对人类有影响的大型关键系统相集成,解决人工智能的安全性问题已成为该领域的核心挑战之一。在这些重要系统中,目标不仅仅是构建最准确的AI模型,而是要构建那些同时具备高准确性和可证明安全性的AI模型。本论文探讨了人工智能安全性的两个重要方面:鲁棒性和公平性。鲁棒性要求模型在输入分布与训练期间遇到的分布不同时也能良好表现。公平性是一种安全属性,要求模型预测在不同个体和群体间保持公平。
在论文的第一部分,我们聚焦于鲁棒性。我们首先提出了一种新颖的认证方法,可以保证模型对输入变换具有鲁棒性。在第二章中,我们将此方法扩展到训练模型,使其能够证明鲁棒性。这些贡献基于诸如通过优化和采样进行认证的创新技术,以及通过在凸松弛中寻找对抗样本来进行训练的方法。 论文的第二部分则探讨了公平性,我们开发了新的方法,用于学习满足个体或群体公平性要求的公平表示。我们还将个体公平性与鲁棒性联系起来,使得我们能够利用论文第一部分中的技术来同时解决公平性问题。 本论文中提出的方法具有广泛的应用前景,例如鲁棒性方法可以应用于更复杂的输入变换,而群体公平性表示学习也可以用于将输入编码为更隐私的表示。我们相信,本论文提出的方法能够丰富我们在AI安全性方面的工具库,并在未来应用于更多的系统中。 深度学习在过去十年中取得了显著成功。基于深度学习的模型现已广泛应用于各个领域,如推荐系统【16】、计算机视觉【17, 18, 19】和涵盖自然语言的一般任务【20】。然而,随着深度学习模型能力的提升,人们也对其安全性产生了极大的关注。因为这些模型并非孤立使用,而是作为更大系统的一部分,而其预测结果可能会对人类产生下游影响。例如,计算机视觉模型可以用在自动驾驶车辆中,帮助其检测街道标志,其预测结果直接影响乘客和其他交通参与者的安全。一个预测学生GPA的模型可以用于大学录取过程中,这意味着其预测质量可能会影响一个人的教育路径。这强调了研究人工智能安全性的重要性,特别是这些系统在最坏情况下的表现,以确保其在尽可能多的情况下能够正确运作。
在本论文中,我们专注于安全人工智能的两个方面:鲁棒性与公平性。当机器学习模型在输入发生变化时仍能正确运行,则称其具有鲁棒性。输入的变化可以是由对抗者造成的(例如,有人故意向图像中添加噪声),也可以是在推理过程中自然发生的(例如,摄像头拍摄的图像发生位移)。解决这一问题对于开发能够在环境变化时依然有效的机器学习系统至关重要。公平性是人工智能安全的另一重要话题,随着机器学习模型通常基于偏差数据进行训练,模型本身也可能会开始表现出类似的偏差行为。尽管公平性有多种定义,本论文关注个体公平性(要求相似个体获得相似结果)和群体公平性(要求不同群体间的平均预测相似)。随着机器学习越来越多地被用于重要的社会决策中,充分解决公平性问题变得越来越重要。
本论文的主要目标是推进能够保证机器学习模型鲁棒性和公平性的方法。为此,我们结合使用了形式方法(例如,抽象解释和凸松弛)和统计方法(例如,有限样本边界)。具体而言,在第三章中,我们引入了一种基于优化和采样相结合的方法,以认证机器学习模型对几何变换的鲁棒性。接下来在第四章中,我们不仅对模型进行认证,还提出通过潜在对抗样本进行训练的创新概念,使模型在训练时即具备可证明的鲁棒性。第五章首次探讨了输入数据的预处理问题,从而使数据消费者能够证明个体公平性。最后,第六章提出了一种新的预处理方法,使得转换后的输入数据无法用于推断敏感属性,从而保证在其之上的任何下游分类器的群体公平性。 在表1.1中,我们总结了本论文的贡献,每一行对应一个章节:章节中涉及的安全属性,以及用于安全性检查的关键方法。接下来,我们将对本论文的贡献进行分章节概述。