对抗训练是提高模型对抗扰动鲁棒性的最有效技术之一。然而,这种方法对模型的全部影响还没有被很好地理解。例如,虽然对抗训练可以减少对抗风险(针对对手的预测错误),但它有时会增加标准风险(没有对手时的泛化错误)。在本文中,我们关注于分布扰动对手框架,其中对手可以改变训练数据分布的邻域内的测试分布。邻域是通过分布之间的Wasserstein距离定义的,邻域的半径是对手操纵能力的度量。我们研究了标准风险和对抗风险之间的权衡,并推导了在特征维数不变的无限数据限制下,在特定类型的模型上可实现的Pareto最优权衡。我们考虑了三种学习设置:1) 线性模型类的回归; 2) 二元分类下的高斯混合数据模型,用线性分类器分类; 3)用一类随机特征模型进行回归(可等效表示为第一层权值为随机的两层神经网络)。我们表明,标准风险和对抗性风险之间的权衡在所有三种情况下都得到了体现。我们进一步描述了Pareto最优权衡曲线,并讨论了各种因素,如特征相关性、对手的力量或两层神经网络的宽度会如何影响这种权衡。
https://www.zhuanzhi.ai/paper/e511cb93baf31c0a8c8549bd4b2a42ef