选自towardsdatascience
作者:Alex Adam
机器之心编译
参与:Luo Sainan、一鸣
很多人都大概了解对抗样本是什么: 在数据中加入人眼不可察觉的扰动,使得模型对数据的标签预测发生混淆和错误。 但是,这句话背后的技术细节是什么? 怎样才能确保生成的对抗样本符合这样的定义? 本文深入解析了对抗样本背后的数学定义,并帮助读者重新理解对抗样本的定义。
MNIST 图像距离分析
我们希望所允许的扰动对于人类而言是不可感知的,哪怕当原始图像 x 和扰动版本 x' 进行并排比较时,扰动也难以发现。
我们希望扰动不会导致相同数字的图像之间的篡改。否则这会混淆对抗攻击中的鲁棒性和泛化性。对于一个给定的数字,测试集图像 x_correct 和 x_false 分别被我们的模型正确和错误分类,一个普通的对抗攻击将把 x_correct 转换为 x_false。