机器学习(ML)和人工智能(AI)在广泛的领域实现了非凡的、超乎人类的性能:包括计算机视觉、自然语言处理、蛋白质折叠等等。直到最近,大多数的进步都是采取模型中心化的方法,主要关注于改善神经网络架构(如卷积神经网络、残差网络、变换器等)和训练这些模型的优化程序(如批量标准化、dropout、神经结构搜索等)。相对来说,我们对用来训练这些模型的数据的关注度较低,尽管众所周知,机器学习对高质量数据的依赖可以用"垃圾进,垃圾出"这句话来精辟地概括。随着对越来越大且更复杂的模型(如Nvidia和Microsoft的5300亿参数的MT-NLG)的回报逐渐减小,研究人员开始认识到采取数据中心化方法的重要性,并开发了原理性的方法来研究这些模型的燃料:数据本身。数据中心视角不仅可以提高任务性能,还可以让我们考虑到一些社会关键考虑因素,如数据隐私。在本论文中,我们将对机器学习数据管道中的几个点进行深入分析:在模型训练前、训练中和训练后。在模型训练前,我们将探索数据选择的问题:应该用哪些数据来训练模型,我们应该期望我们的模型在何种类型的数据上工作?当我们进入模型训练时,我们将把注意力转向由我们的ML系统与其部署环境的交互可能导致的两个问题。第一个问题是数据隐私:我们如何防止我们的模型泄露有关其训练数据的敏感信息?第二个问题涉及一些被模型化的群体的动态性。特别是当我们的模型被用于做出具有社会影响力的决策(如自动贷款批准或推荐系统)时,模型本身可能会影响数据的分布,导致性能降低。最后,尽管我们在模型训练前和训练中遵循最佳实践,但可能在训练后我们希望对模型进行后处理,以移除某些训练后的数据的影响。如何以计算效率高的方式实现这一点呢?本论文将涵盖每一个先前问题的新颖解决方案,强调的是每一个提议的算法都有可证明的保证。通过将数学严谨性应用于具有挑战性的现实问题,我们可以开发出既有效又可信赖的算法。
在过去的十年中,机器学习(ML)和人工智能(AI)研究已经取得了飞速的进步。到目前为止,大部分的研究都采用了模型中心化的方法:也就是说,数据集被视为已给定,研究人员不断迭代应用于这些数据集以提取有用信息的模型。这种模式下有一套标准的假设。例如,数据通常假设是从固定概率分布中独立同分布(i.i.d.)抽取的,此外还假设数据是固定的和给定的。通常还假设测试数据与训练数据来自同一分布,即不存在分布漂移。而且,通常唯一衡量成功的指标是模型的性能(如预测任务的准确率)。尽管这种范式已经带来了大量令人印象深刻的进步,但往往与数据科学家在实践中面临的情况相去甚远。例如,收集和策划一份高质量的训练集通常比使用更复杂的模型架构带来更大的收益。关于独立同分布的假设,在现实中,数据分布可能由于各种因素而不断变化,包括时间变化(如消费者偏好的季节性影响)和空间变化(如不同地理位置的医院患者分布不同)。在某些情况下,我们的模型本身可能导致数据分布的变化,特别是如果该模型被用于做出具有社会影响力的决策。最后,最近的立法,如加利福尼亚消费者隐私法案和欧盟的通用数据保护法规,要求在设计AI模型过程中也要考虑消费者隐私。也就是说,隐私以及模型性能,都是必须考虑的关键指标。 所有这些重要的实践问题都有一个共同的主题:它们更多地关联到数据本身,而不是训练在其上的模型。在这篇论文中,我们遵循这种数据中心的观点,并为数据通过典型的ML管道可能出现的问题提出新颖的算法。我们特别强调可以为每个提出的算法提供的可证明的保证。