【博士论文】社交与对抗性数据源下的可信机器学习

近年来，机器学习取得了显著的突破。随着机器学习逐渐渗透到日常生活的各个方面，个人和组织越来越多地与这些系统互动，表现出各种社交和对抗性行为。这些行为可能对机器学习系统的行为和性能产生显著影响。具体来说，在这些互动过程中，数据可能由策略性个体生成，由自利的数据收集者收集，甚至可能被对抗性攻击者污染，并用于创建满足多重目标的预测器、模型和政策。因此，机器学习系统的输出可能会退化，例如深度神经网络对抗性样本的脆弱性（Shafahi 等, 2018; Szegedy 等, 2013），以及在面对策略性个体时经典算法性能的下降（Ahmadi 等, 2021）。解决这些挑战对于机器学习在社会环境中的成功至关重要。本论文分为两部分：社交数据源下的学习和对抗性数据源下的学习。对于社交数据源，我们考虑了以下问题：(1) 在有限和无限假设类中与策略性个体的学习，其中我们对在线和PAC策略环境中的可学习性进行了理解，(2) 在单轮联邦学习、多轮联邦学习和协作主动学习中，自利数据收集者的激励与背叛，(3) 游戏中的学习，在其中一名玩家运行学习算法而不是做出最佳回应，(4) 在决策制定和在线学习中的多目标学习。对于对抗性数据源，我们研究了以下问题：(1) 在干净标签攻击下的鲁棒学习，攻击者向训练集中注入一组正确标记的点，以误导学习者在特定测试点上出错，(2) 在变换不变性下的学习以及对流行的数据增强方法的分析。

近年来，机器学习取得了显著的突破。随着机器学习逐渐渗透到日常生活的各个方面，个人和组织与这些系统的互动日益频繁，表现出各种社交和对抗性行为，这些行为可能会显著影响机器学习系统的性能。策略性个体在许多领域，机器学习被应用于为各种资源的申请者提供决策依据。然而，当个体有动机从特定的预测结果中获益时，他们可能会通过修改自身特征来获取有利的预测结果。这种行为可能损害预测性能，使得学习过程容易受到金融政策制定中的经典原则——古德哈特定律（Goodhart's law）的影响，该定律指出：“一旦某个指标成为公众的目标，它就不再是一个好的指标。” 这种学习系统与其所应用对象之间的天然张力广泛存在于贷款审批、大学招生、职位招聘和保险等场景中。在这些情况下，学习系统的目标是进行准确的预测，而个体则无论其真实标签如何，都有动力被归类为正面。例如，在大学招生中，申请者可能会重考SAT或选择更容易的课程以提高GPA，从而误导分类器。

自利的数据收集者在许多现实世界的应用中，数据集分布在不同的孤岛中，如医院、学校和银行，因而需要它们之间的合作。近年来，协作学习（如联邦学习）被广泛采用，以促进大量数据收集者之间的合作。然而，决定协作学习成功与影响的关键在于能否招募和留住大量的数据收集者。在协作学习协议与数据收集者之间存在一种内在的张力。学习协议旨在找到对所有数据收集者都有利的模型，而每个数据收集者的目标则是找到一个对其本地数据有利且数据贡献最小的模型。因此，如果学习协议要求数据收集者提供超出其自身目标所需的数据量，他们将不会按协议要求进行贡献。

多目标用户虽然机器学习问题通常涉及优化单一标量奖励，但在许多领域，同时优化多个（可能互相冲突的）目标是可取的或必要的。例如，自动驾驶汽车用户希望同时追求安全、速度和舒适性，但速度可能对安全（如延长车辆突然停下的时间）或舒适性（如在快速转弯时引起不适）产生负面影响。因此，当一个学习系统优化单一标量损失时，它可能忽视这些多重目标，从而为用户生成不令人满意的模型或策略。此外，在学习过程中可能存在多个利益相关者，每个利益相关者都有不同的目标。仅关注一个目标可能导致其他目标的性能显著下降。

对抗性攻击者对抗性攻击在暴露机器学习系统的脆弱性方面发挥了重要作用。许多流行的模型在现实世界场景中缺乏鲁棒性。例如，在图像任务中，向训练图像添加不可察觉的噪声（Szegedy等，2013）或通过添加额外的图像来污染训练集（Shafahi等，2018）可以严重损害深度神经网络的性能。由于这些社交和对抗性数据因素，机器学习系统的输出可能会退化。应对这些挑战对于机器学习的成功至关重要。

本论文从理论角度出发，针对由这些社交和对抗性数据因素引发的可信性挑战作出贡献。这些数据因素在现有理论中尚未得到充分建模。因此，本论文侧重于建模机器学习交互中固有的社交和对抗性方面，分析其对预测器的影响，并开发增强性能的方法和见解。本论文的核心主题是为社交和对抗性数据源下的可信机器学习建立理论基础。