Historically, machine learning methods have not been designed with security in mind. In turn, this has given rise to adversarial examples, carefully perturbed input samples aimed to mislead detection at test time, which have been applied to attack spam and malware classification, and more recently to attack image classification. Consequently, an abundance of research has been devoted to designing machine learning methods that are robust to adversarial examples. Unfortunately, there are desiderata besides robustness that a secure and safe machine learning model must satisfy, such as fairness and privacy. Recent work by Song et al. (2019) has shown, empirically, that there exists a trade-off between robust and private machine learning models. Models designed to be robust to adversarial examples often overfit on training data to a larger extent than standard (non-robust) models. If a dataset contains private information, then any statistical test that separates training and test data by observing a model's outputs can represent a privacy breach, and if a model overfits on training data, these statistical tests become easier. In this work, we identify settings where standard models will overfit to a larger extent in comparison to robust models, and as empirically observed in previous works, settings where the opposite behavior occurs. Thus, it is not necessarily the case that privacy must be sacrificed to achieve robustness. The degree of overfitting naturally depends on the amount of data available for training. We go on to characterize how the training set size factors into the privacy risks exposed by training a robust model on a simple Gaussian data task, and show empirically that our findings hold on image classification benchmark datasets, such as CIFAR-10 and CIFAR-100.
翻译:从历史上看,机器学习方法并不是以安全为思想而设计的。 反过来,这又产生了对抗性实例, 仔细扰动的输入样本旨在误导测试时间的检测,这些样本被用于攻击垃圾邮件和恶意软件分类,最近被用于攻击图像分类。 因此,大量研究被用于设计机学习方法,这些方法对对抗性实例来说是强有力的。 不幸的是,除了强健之外,还存在着一种贬损,即安全和安全的机器学习模式必须满足,例如公平和隐私。 Song等人(2019年)最近的工作经验显示,强健和私人机器学习模型之间存在一种权衡。 设计得稳健的模型用来取代测试时间的检测方法,这些模型往往用于攻击垃圾邮件和恶意软件分类,而用来取代测试图像。 如果一个数据集包含私人信息,那么任何通过观察模型产出而将培训和测试数据分开的统计测试都可能破坏隐私,如果一个模型过于适合培训数据,那么这些统计测试测试就变得更容易了。 我们从标准模型到简单的机器学习模型的比重, 用来比较标准模型的难度, 并且作为真实的模型显示, 真实的模型显示, 真实的比重性数据在前的比重, 。 。 的模型观察性,我们所观察到的比比重性 的比重性 的比重性 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 正确的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的