所谓对抗性样本,指的是对于训练好的神经网络(比如是训练好神经网络用作图片分类) ,随便拿一张能被网络正确分类的图片 ,人为的对图片的像素加一些很小的扰动 (perturbation),神经网络会以很大的概率将perturbed的图片 分类错误,即
,重要的是扰动后的图片人眼是不会分类错误的,甚至都无法察觉加了扰动。比如下图将一个大熊猫的图片进行很小的扰动就会将其分类为长臂猿。也就说明当今被人们广为称道的深度学习模型是如此的脆弱不堪。
注意这个小扰动 不是一个随便的扰动,而是解一个优化问题得到的扰动,我们称为这个求解过程为攻击网络,这也是被称为对抗性样本的原因。
原文链接:
https://mp.weixin.qq.com/s/H1xapBTuImocpnAoT0bIow