对抗样本到底是bug还是特征?Reddit热议的MIT论文再度引发大讨论

2019 年 8 月 8 日 新智元





  新智元报道  

来源:Reddit、Distill
编辑:大明
【新智元导读】5月初,MIT的一篇论文提出。对抗样本不是bug,而是有用的特征,引发热议。三个月以来,有学者该文中的观点提出了不同意见,对抗样本到底是bug还是特征?有网站专门组织了一场大讨论,原论文作者也参加了,双方有来有回,一起来看看吧。


5月6日,MIT的Andrew Ilyas团队发表了一篇论文,题为《对抗样本不是Bug, 而是特征 。文中概述了两组实验。首先,他们表明,在对抗性实例上训练的模型可以应用到实际数据上,其次,在源自高鲁棒性神经网络表示的数据集上训练的模型,似乎继承了这些数据集非平凡的鲁棒性。


他们对这一结论提出了一个有趣的解释:对抗性实例是由于“非鲁棒特征”,这些特征具有高度可预测性,但对人类来说难以察觉。

 


新智元曾对这篇论文做过专门报道,详见:


Reddit热议MIT新发现:对抗样本不是bug,而是有意义的数据特征!

 

这篇论文引起了全世界社交媒体上的热议,各地社群和研究小组中都引发了兴趣浓厚的讨论。该如何解释这些实验?这些实验是可复现的吗?如果确实存在非鲁棒性的特征......那么都有哪些特征?


大讨论:对抗样本到底是不是bug?


为了探索这些问题,Distill上开展了一个实验性的“讨论”,邀请了一些研究人员在论文上撰写评论,并组织了原作者的讨论和回应。

 

机器学习社区有时担心同行评议不够彻底。但此次讨论参与的积极性非常高。一些人花了几个星期的时间来复现结果,进行新的实验,并深入思考原来的论文。还有人在实验时随时更新着对非鲁棒特征观点,有时还会进行讨论。此文的原作者也深入地讨论了实验结果,澄清了误解,甚至在回应他人的评论时进行了新实验。

 

这种深度的参与和讨论非常令人兴奋,希望将来能够尝试更多此类形式的讨论。

 

讨论内容主要围绕以下几个主题:

 

对原文内容的澄清:参与讨论和原论文作者之间的讨论中可能表现出一些误解,借此机会能够各自明确自己的观点。

 

成功的实验再现:有些讨论者成功复现了Ilyas团队的许多实验。这与论文原作者发布代码,模型和数据集是分不开的。Gabriel Goh和Preetum Nakkiran都独立地重新实现并复制了非鲁棒数据集的实验。Preetum还通过已发布的鲁棒数据集上训练了模型,发现模型结构其实非常简单,从而复现了部分鲁棒的数据集实验。而且,Preetum和Gabriel最初都对此持怀疑态度。Preetum表示,他尝试的许多模型变体和超参数都是高鲁棒性的。

 

探索非鲁棒性“转移”的边界条件:其中一些讨论重点放在了“非鲁棒数据集”实验的变体上,这些实验将训练的对抗样本非鲁棒性转移到了实际数据上。这种转移是何时发生的,为何会发生?Gabriel Goh探索了出另一种机制,Preetum Nakkiran则展示了一种不会发生这种转移的特殊结构。Eric Wallace表明,对于其他类型的错误标记数据,很可能会发生这种转移。

 

鲁棒和非鲁棒特征的属性:Gabriel Goh探讨了线性模型中出现非鲁棒特征的可能性,Dan Hendrycks和Justin Gilmer讨论了实验结果与更广泛的鲁棒性的分布和转移问题相关联的问题。Reiichiro Nakano探讨了鲁棒模型的定性差异等。


讨论话题和作者回应节选


论文原作者积极参与了这次讨论,并针对讨论中提出的多种观点和问题给出了回复。以下节选几例:

 

对抗样本研究人员应该扩展“鲁棒”的含义

 

Justin和Dan讨论了“非鲁棒特征”模型不具备鲁棒性的特殊情况,因为这些特征依赖于肤浅的相关性,这种观点经常出现在分布鲁棒性文献中。他们还讨论了神经网络在频率空间中的最新行为分析。他们强调,我们应该对鲁棒性的概念进行更广泛的扩展。

 

原作者回复:

 

仅从数据中高频出现的要素进行学习的模型,是一个有趣的发现,这一发现为我们提供了另一种视角,我们的模型可以从对人类“毫无意义”的数据中进行学习。我们完全同意这一观点,即研究更广泛的鲁棒性概念,在机器学习研究中将变得越来越重要,并有助于我们更好地掌握希望模型依赖的那些特征。

 

存在非鲁棒、但有用的样本

 

Gabriel探讨了线性模型中非鲁棒但有用的特征。他提供了两种结构:一种是“受污染”的特征,由于混合了无用的特征,是非鲁棒的,而“集合”特征可能是真正有用的非鲁棒特征。

 

原作者回复:

 

这些线性模型实验,是实现真实数据集非鲁棒特征可视化的第一步(即对它们的存在性的一种巧妙的证实)。此外,“受污染”的非鲁棒特征的理论架构,为开发更精细的特征定义提供了一个有趣的方向。

 

对抗样本就是Bug

 

Preetum构建了一系列对抗样本,这些样本没有转移到真实数据中,这表明一些对抗样本是原始论文框架中的一些“错误”。Preetum还证明,即使底层分布没有“非鲁棒特征”,也会出现对抗样本。

 

原作者回复:

 

应该细致考察对抗样本。基于构造的“bug”的对抗样本不会转移的事实,是“可转移性”和“非鲁棒特征”之间的存在联系的另一个证据。

 

从错误标记的数据中学习

 

Eric表示,对模型的训练错误进行训练,或者如何预测示例形成不相关的数据集,可以转移到真实的测试集。这些实验类似于原始论文的非鲁棒转移结果。- 所有三个结果都是“从不正确标记的数据中学习”的例子。

 

原作者回复:

 

这些实验创造性地证明了这样一个事实,即“人类毫无意义”数据的学习特征的潜在现象实际上可以在广泛的环境中出现。


原论文地址:
https://arxiv.org/pdf/1905.02175.pdf

讨论内容链接:
https://distill.pub/2019/advex-bugs-discussion/

登录查看更多
0

相关内容

对抗样本由Christian Szegedy等人提出,是指在数据集中通过故意添加细微的干扰所形成的输入样本,导致模型以高置信度给出一个错误的输出。在正则化背景下,通过对抗训练减少原有独立同分布的测试集的错误率——在对抗扰动的训练集样本上训练网络。 对抗样本是指通过在数据中故意添加细微的扰动生成的一种输入样本,能够导致神经网络模型给出一个错误的预测结果。 实质:对抗样本是通过向输入中加入人类难以察觉的扰动生成,能够改变人工智能模型的行为。其基本目标有两个,一是改变模型的预测结果;二是加入到输入中的扰动在人类看起来不足以引起模型预测结果的改变,具有表面上的无害性。对抗样本的相关研究对自动驾驶、智能家居等应用场景具有非常重要的意义。
【MIT-ICML2020】图神经网络的泛化与表示的局限
专知会员服务
42+阅读 · 2020年6月23日
最新《Deepfakes:创造与检测》2020综述论文,36页pdf
专知会员服务
62+阅读 · 2020年5月15日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
50+阅读 · 2020年2月19日
2020图机器学习GNN的四大研究趋势,21篇论文下载
专知会员服务
135+阅读 · 2020年2月10日
对抗样本并非bug,它们只是特征罢了
机器之心
8+阅读 · 2019年5月9日
IanGoodfellow在推特教你如何更好地阅读GAN论文
对抗样本引发的系列讨论
机器学习研究会
5+阅读 · 2018年3月22日
一条Twitter引发的学术争论:NLP是交叉学科吗?
Arxiv
7+阅读 · 2018年11月27日
Arxiv
4+阅读 · 2018年9月25日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
Arxiv
22+阅读 · 2018年2月14日
VIP会员
相关VIP内容
相关资讯
Top
微信扫码咨询专知VIP会员