鲁棒表示学习简述

2021 年 4 月 13 日 专知

作者:哈工大SCIR、AIUS 齐弼卿

前言

最近热映的《哥斯拉大战金刚》想必让众多影迷期待已久,里面的打斗特效着实让人震撼,但为何被囚禁在骷髅岛的金刚会和地球上唯二仅存的泰坦巨兽哥斯拉相遇?两人的终极对决会以怎样的结局收场?一切疑问,都可以在AI中找到答案。

APEX计划打造出人工巨兽,主宰世界,而这导致了哥斯拉的袭击和金刚离开骷髅岛。APEX用已故巨兽基多拉的头骨打造成了控制台,进行自主学习,但在将地心能量注入机械哥斯拉时,似乎激活了某种残存的意识,并导致了难以控制的悲剧发生......

相比起哥斯拉和金刚,失去控制的AI哥斯拉更加可怕,似乎我们可以从电影中反思一些事情?

我们总会觉得这样的事情离我们很遥远,其实并不是,类似的例子就在我们身边…

接下来,本文将简述鲁棒表示相关内容,解释AI哥斯拉背后的问题。

1.摘要

鲁棒性是指系统在一定(结构、大小)参数摄动下,维持某些性能的特性。

对于机器学习问题而言,对抗样本是一种很好的体现和验证模型鲁棒性的方式,模型鲁棒性的问题远远不止对抗样本一个方面,但是对抗样本是模型鲁棒性非常好的议题和出发点,代表了其中一种具体问题。因此,本文主要从对抗样本角度出发简述模型鲁棒性相关内容。首先给出对抗样本的实际案例,分析给出对抗样本出现的原因,引出研究动机和意义。然后,介绍提升模型鲁棒性的主要思路,包括信息瓶颈和互信息约束构建显示正则的方法。最后给出总结和思考。

2.研究动机

随着AI技术的快速发展,视频监控、自动驾驶、无人机和机器人、语音识别、文本生成等多个AI细分领域都得到了快速的发展,甚至在某些方面可以媲美人类,为我们生活带来极大的便利。然而Szegedy等人[1]在2014年的研究工作发现了一个有趣的现象,他们发现在原始图像(如下左图所示),加入人眼不可察觉的噪声扰动(中间)构建成新的样本(如右图),这类新样本会使机器学习模型出现高置信度的预测错误。此外,同样的图片扰动可以欺骗多种网络结构。他们把这种攻击称为对抗样本(人肉眼不可察觉的错误,机器高概率预测错误的样本)。

图1 图像对抗样本实例

其实,在机器学习领域,对抗样本的问题并不是第一次提到,Biggo等人[2]在2013年的工作中就指出深度神经网络存在易于攻击的安全隐患。

这类现象的出现让我们产生一个新的疑问——现有机器学习系统是否安全可靠?这也对当下深度神经网络的现实安全意义引发思考。看到对抗样本现象之初,我们肯定会存在这样的疑问:对抗样本的现象是否普遍存在?是否具备迁移特性?所构成的威胁是否很大程度影响对AI系统的信任?事实上,答案是肯定的。

2.1对抗样本实际案例

2019年4月初,专注于安全技术的腾讯科恩实验室公布了一项在特斯拉 Model S上进行的安全性研究,并发布报告指出了三个缺陷,其中就包括雨刷、车道的两项视觉识别,而两者正是基于对抗攻击。

图2 特斯拉实验照片

在实验中,团队将特斯拉停在一个室内环境中,在车辆前播放特定的干扰画面,使车辆得出了下雨的错误判断,导致雨刷自动启动。实验室表示,这是利用 AI对抗样本生成技术生成特定图像并实现了对汽车的干扰。YOLO网络在几乎所有帧中都无法感知识别出「停止」标志。如果一辆真实的自动驾驶汽车在具有这样的对抗式「停止」标志的道路上行驶,它就无法看到这种「停止」标志,从而有可能造成交叉路口撞车事故。科研人员创造的这种扰动很稳健,不受距离和角度影响——这两者是自动驾驶场景中最常见的变化因素。更有趣的是,为YOLO检测器生成的实体对抗样本也可以骗过标准的Faster-RCNN。我们的演示视频包含了一次实体对抗样本在 Faster-RCNN上的动态测试。视频如下:

在人脸识别和目标检测越来越普及的今天,如果说有一件衣服能让你在AI 检测系统中“消失无形”,请不要感到惊讶。由MIT-IBM Watson AI Lab研究者联合研发的这款基于对抗样本设计的T-shirt[3],如下图所示,可以让你无形穿梭于图像识别系统之间。该研究指出在客观的物理世界系统中同样难以避免这样的问题,也旨在引起大家对当下深度神经网络的安全问题的重视。

图3 对抗样本设计的T-Shirt

除了图像领域外,在2017年前后,当国内外业界,无论是雄踞一方的巨头还是崭露头角的新秀,都争先恐后地发布智能音箱,进而用跳楼价在家居语音入口这个还远不成气候的领域里圈地盘的时候,学界开始了对语音对抗性攻击的关注,也终于在视觉之后水涨船高。如下图所示,人听着没有差别的两段语音,机器却会给出完全不同的转义结果[4][5][6]。而现在语音系统已经广泛应用到日常生活当中。例如,在无人驾驶过程中,当我们听歌曲的时候,出现微信语音攻击,误导车辆出现错误的执行结果,这会带来巨大的安全威胁。

以下展示其中一个案例,具体的案例可以访问链接:https://nicholas.carlini.com/code/audio_adversarial_examples/

Transcription: “that day the merchant gave the boy permission to build the display”

Transcription: everyone seemed very excited

Transcription: plastic surgery has beocome more popular

上述研究表明:在语音交互场景中,同样客观存在安全风险。如果前端语义解析出现对抗样本情形,在后端决策任务上引起了决策偏差,我们是否能够容忍这样的结果?

在文本领域而言,垃圾邮件检测、有害文本检测、恶意软件查杀等实用系统已经大规模部署了深度学习模型,安全性对于这些系统尤为重要。对抗样本也客观存在于文本信息之中,例如情感分析的任务:

图4 文本对抗样本实例

当存在人察觉不出的语义扰动的输入后,模型会出现完全错误的情感判断结果。如果这样的情形出现在高安全系数的场景,例如无人驾驶语音交互、司法系统、金融系统等,将会存在巨大安全隐患,同时极大限制AI技术的场景落地部署。目前,文本领域研究较为初步,更具有挑战性。原因在于,文本信号和图像信号以及语音信号有本质的区别,对于连续变量(图像、语音)而言,有渐变的过程,我们有刻画它和其他量变化关系的办法(有可微分的操作)。而对于离散属性的文本数据,例如:“我”、“你”等等的离散符号,没有语义可理解的渐变过程,更没有直接的工具去刻画两个变量之间的相对变化关系。Embedding空间又已经大量丢失语义信息,同时存在不可逆的特征行为,这些短板对直接保证语义一致的文本对抗样本生成带来困难,同时也对提升文本表示鲁棒性带来了巨大挑战。最早的文本对抗的工作[7]从语句角度出发,对阅读系统进行了攻击。目前,文本领域逐渐重视对抗样本的相关问题的研究[8]。以2020年ACL的最佳论文[9]为例,其中大部分测试方法其实和文本对抗攻击有异曲同工之妙。此外, Carlini等研究者[10]对于目前火热的预训练语言模型进行了关键词触发式攻击,研究者从1800个生成候选序列中,发现有600多个序列是和训练数据重合的,其中有很多是用户隐私相关的信息,如下图所示:

图5 数据抽取式攻击

实验表明:只需要对预训练语言模型进行查询,就极有可能提取该模型已记忆的训练数据,这样的现象对预训练模型使用用户数据隐私安全方面带来了质疑。

从模型结构维度来讲,seq2seq[11]Transformer[12]VAE[13]的性能,研究者都进行了理论性探索。预训练结构模型[14]同样不避免对抗样本的攻击风险。强化学习[15]以及知识辅助的图表示学习[16]范式无一幸免。

自然,对于鲁棒文本的研究,高效的评估方式也是前提,近期复旦大学团队给出一个综合的评估工具[14],对最先进的模型进行了大规模评估(超过67000个评估),几乎所有模型都出现明显性能下降,在情感分类、命名实体识别等自然推理任务上,BERT下降50%以上。

上述主要从图像、语音以及文本的实际案例出发,阐述对抗样本的存在现象。相关研究和实测实验表明:对抗样本的风险威胁是客观存在且具备可迁移能力的[17],同时也会牵连数据隐私安全问题。现有的研究追求性能泛化的极致,而忽略了模型安全可靠使用的前提。接下来,本文将介绍为什么会存在对抗样本这样的现象。

2.2对抗样本产生的原因

深度学习为何如此脆弱、容易受攻击、被欺骗和不安全呢?原因只能从机器学习理论本身去寻找[18]。下面举一个简单的有监督学习的例子, 有监督学习可以形式化为以下的函数回归问题:从数据库 中提取样本,对样本所反映的输入–输出关系 做出估计,即从备选函数族(假设空间) 中选出一个函数 使它平均逼近于真实 。在深度学习问题中这个备选函数族由深度神经网络表示:

其中参数学习中有3项基本假设:

  • 独立性假设:损失函数和备选函数族 (或者神经网络结构)的选择与数据无关;
  • 大容量假设:样本 数量巨大
  • 完备性假设:训练样本完备且无噪声;
如果上述假设均能满足,将随样本数的增加最后收敛于真实函数 。机器学习的成功与否与3项假设密切相关,由于观察与测量数据存在不确定性, 所获取的数据一定不完备和含有噪声。这种情况下, 神经网络结构 (备选函数族) 的选择极为重要。从这里来看,对抗样本的出现是深度学习自生假设短板的直接体现。
对于对抗样本的存在原因,现阶段的研究给出其他不同的解释。在首次提出对抗样本的工作[1]中,研究者指出深度神经网络模型的非线性导致的输入与输出映射的不连续性,加上不充分的模型平均和不充分的正则化导致的过拟合使得对抗攻击成为可能。而GoodFellow等人[19]的研究则认为恰恰是由于模型损失函数的线性本身导致的:高维空间中的线性就足以造成对抗样本,以 , 举例( 是权重, 是输入)。如果 为干扰, ,也就是多出一个 项, 维数很大时,即使很小扰动,累加起来也很可观。深度模型对对抗样本的脆弱性最主要的还是由于其线性部分的存在。通过将模型转变成非线性的RBF模型, 就能减少神经网络模型对对抗攻击的脆弱性。作者提出的攻击算法也有效的证明了这个观点。到现在为止,对于模型内部结构的特性还没有明确的定论。Moosavi-Dezfooli等人[20]在文献中证明了全局的扰动存在。分析给出对抗样本的存在是由于其分类器决策边界之间的几何相关性。
文献[21]从实验经验的角度进行了详细的分析,解释了对抗样本产生的原因,对抗样本不是仅在最后预测阶段产生误导,而是从特征提取过程开始就产生误导,下图展示了第147号神经元分别在正常深度学习模型和对抗样本中的关注区域。文中实验简述了利用深度网络模型VGG-16对“鸟”原始图像进行分类, 从该模型 pool 5层147号神经元的响应可以看出,该神经元最强烈的响应是“鸟”头部的某个局部特征, 机器正利用这个局部特征作为区分“鸟”的主要依据, 显然它不是“鸟”的不变语义特征。 因此对于语义完全不同的对抗样本 (人物、啤酒瓶和马等), 由于具有与“鸟”头部相似的片段, VGG-16模型pool 5层147号神经元同样产生强烈的响应, 于是机器就把这些对抗样本错误地判断为“鸟”。
图6 VGG特征响应图

MIT团队从多维度的实验方案同样验证上述观点[22],对抗样本仅仅是一些特征,而且从模型泛化性而言,这些稳健或非稳健特征具备同等的重要性。研究表明,对抗样本的产生可直接归因于非鲁棒特征的出现:某些来自数据分布模式的非鲁棒特征具备高度预测性,但对于人类来讲是脆弱且难以理解的。

举个通俗的例子:你可以看轮廓区分鸡肉和青菜(稳健的特征,观测尺度大),科学家(类比于机器学习模型)可以靠显微镜看细胞的形状区分两个物体(不稳健的特征,观测尺度小)。你往一棵青菜上涂满肉汁(新的对抗样本),就能骗过科学家,但是这不是因为科学家整天呆在实验室学傻了。事实证明,对于现实中的青菜而言,科学家用显微镜分辨的能力不一定比你靠轮廓差(非稳健特征同样有强泛化能力)。

通过上述的分析和理解,对抗样本出现的原因有3点:1)机器学习假设的自生短板;2)数据的高纬空间属性;3)现有模型学习到的具有强泛化能力的特征中存在很多高度耦合的非鲁棒性特征。也就是说,这些非鲁棒的特征会过于敏感人不可察觉(小观测尺度,非语义级别)的输入变化扰动,从而带来完全错误的预测结果。根本原因在于目前的模型或者训练架构得到的特征表征空间和人的语义空间鸿沟过大(同一客观事物的观测尺度差异过大),自然也是这个原因导致了模型不可解释。从这个角度来看,模型鲁棒性在某种意义上可以看作是对于模型不解释性研究的弱化版本,都是想将这两者鸿沟减小,只是目的和程度不一样。自然,也有研究者想通过对抗样本视角进行模型可解释性的研究[23]。此外,Bengio团队[24]从因果表示学习的角度讨论了现代机器学习面临的三个问题,分别是解耦表示学习、可迁移机制学习以及干预式世界模型和推理学习, 其中构建独立因果机制的解耦表示学习正是有效提升模型鲁棒性的方法之一,所以从这个视角来看鲁棒特征表示也是构建因果性模型不可或缺的重要组成部分。

至此,上述内容简单阐述了研究鲁棒表示学习的研究动机和意义。接下来,本文主要从基于对抗样本的视角出发来简述鲁棒表示的现有方法。

简单来讲,提升模型的鲁棒性可以从对抗样本产生的原因出发。就是我们应该在保证模型泛化性的同时,尽可能的学习更加鲁棒的表示。然而,鲁棒性和模型泛化能力某种意义上存在平衡点:极致鲁棒的模型,泛化能力不佳;极致泛化的模型,又会偏向非鲁棒性的特征[25]。鲁棒性和泛化性关系还存在争论,这样的内在关系,也对鲁棒表示学习带来了巨大的挑战。

3.现有方法

从对抗样本的产生机理出发,为了得到更加鲁棒的表示,我们从对特征空间直接和间接操作分成显示约束和隐式约束两个方面进行分类和梳理。如下图所示:

  • 隐式约束:间接约束模型特征空间。其中包括对抗训练[26][27]据去噪[28][29]型蒸馏[30]定性集成模型[31]机性防御[32]以及加入新的输入信息辅助;

  • 显式约束:直接约束模型特征空间。其中包括特征解耦[33]特征选择[34]特征交互机制[35][36]、辅助任务设计以及新的训练框架结构[37][38]

图7 对抗样本防御思路

上述框图的防御思路有借鉴CV领域,同时大部分是自己所想。现有文本鲁棒表示相关研究的工作较少。目前文本相关的防御工作思路集中在对抗训练、数据去噪、特征解耦、特征选择等方法。

限于篇幅,本文主要介绍基于信息瓶颈进行特征解耦和特征选择的两份代表性工作。

3.1特征解耦

文献[33]提出一种基于信息瓶颈的通用鲁棒表示框架,并提出两种新颖的显式正则得到鲁棒的表示学习。文献的研究动机是对应于对抗样本原因的第二点(数据空间的耦合高维属性)的逆向思考。举个例子:耦合高维空间中的一个点受到微小扰动就会投影到其他轴线方向,那如果将特征空间解耦,在正交的高维空间中的一个点受到微小扰动,这个时候只会影响个别方向,降低扰动的全局影响程度,从而能够学习更加鲁棒的特征表示。因此,文献完整的思路就是通过信息瓶颈的方式强迫模型学习更加重要的特征成分,然后对这些特征成分进行解耦,从而实现鲁棒表示学习。

什么是信息瓶颈呢?信息瓶颈[39]是1999年提出的平衡信息压缩和准确度的属于信息论中的一种方法。假设机器学习问题输入样本是 ,中间特征表示是 ,监督信息是 。如下图所示:
图8 信息瓶颈示意图
信息瓶颈,通俗的讲希望特征 和输入信息 的共享信息越少越好, 的共享信息越多越好,这个时候的特征表示 就利用越少的信息量完成任务, 此时的特征 倾向于泛化且更重要的特征。好比上面的沙漏,如果我们想用越少的信息量完成任务,中间瓶颈只能通过最重要且泛化的特征信息。形式化就是下式:

其中信息瓶颈利用互信息刻画了两个随机变量的共享信息有多少,也就是 就好比沙漏的中间的口径,刻画了信息压缩的强度。整体上,通过信息瓶颈优化可以得到更加重要泛化的特征成分,相当于去除特征冗余。
有了纯净的特征之后,进行特征解耦,文献中提出两种正则的思路,第一种是将特征表示通过等维度的空间投影得到新的表示

然后利用欧式度量去约束多个表示的距离,强迫使特征之间更加独立不相关,从而实现解耦,再通过参数化权重的方式聚合 得到最终表示。
文献的主要贡献是提出第二种基于total corrlation(TC,本质也是互信息)的正则化方式,TC的定义:

其中 是第 个特征表示,TC刻画多个特征表示的联合分布和特征表示的每一个边缘分布乘积的距离。什么时候TC最小?也就是当多个特征表示之间彼此完全独立情形。因此,通过TC项约束,可以很好的迫使模型学习更加解耦的特征表示。
而信息瓶颈中互信息由于高维特性,不能直接计算,通过边界近似得到VIB框架的最终优化目标,详细推导内容可见论文附录。当把VIB中的监督信息y看做输入信息 的时候,VAE就是VIB的一个特例。其实,文中的架构和beta-TCVAE有异曲同工之妙,同时beta-VAE的性能也在于内在KL约束部分的TC成分。

文章在实验部分,验证了所提架构在NER、POS、MT、CLS任务上的泛化性能,实验表明,所提架构在domain adaption上有一定提升。

图9 文献算法在多种任务上的性能

此外,文章中也利用GAs[40]PWWs[41]两种对抗样本攻击方式验证了所提框架在情感分类任务上的鲁棒性表现。如下图所示,实验结果表明,所提架构可以有效的得到更加鲁棒的特征表示。

图10 文献所提框架在情感分析任务上的性能

文中通过可视化的技巧验证了解扰表示的有效性,下图中的第二部分显示,在加入正则约束后,不同的表示会明显偏重于某些token信息,表示之间信息更独立。

图11 解扰表示的可视化结果

除了特征解耦的思路之外,还有一种直观的思路,就是进行特征选择。

3.2特征选择

相关的研究表明[14],基于Bert结构的预训练模型容易受到文本对抗样本攻击的威胁。文献[34]提出一种基于信息瓶颈的新训练架构,进行鲁棒微调, 在QA和NLI的多个任务上进行了验证。文献的主要贡献在于:1)提出信息瓶颈正则化器,它抑制了输入噪声和表示之间的噪声水平;2)提出锚定特征正则器,利用互信息的方式约束了局部稳定特征(词级表示)和全局特征(句级表示)的信息,提升全局特征的鲁棒性;3)从互信息的变化给出了对抗鲁棒扰动性能的上界分析。

事实上,InfoBERT的思路挺多借鉴了CV中自监督学习的思想。在CV领域,很多研究工作[38][42][43]表明self-supervised的本质在于最大化输入 和表示 的互信息。同样,在NLP领域,也有研究工作[44]从最大化单词序列不同部分之间互信息下界角度给出统一视角来理解语言模型(skip-gram、Bert、XLNET等)。
InfoBERT重点关注词汇级的攻击,因为这比较容易攻击成功而且对人来说不明显。由于自然语言的输入空间是离散的,很难在token层面做对抗扰动;相反,大多数词汇级的对抗攻击通过语义嵌入空间中的有界量来限制词汇扰动。具体方式可见原文。
信息瓶颈理论把深度学习的目标定义为编码压缩和预测能力之间的一种平衡。给定一个输入 ,一个DNN学习到一些中间层的表示 ,并且最大化 和标签 之间的互信息,从而使 受其复杂性约束而包含足够的信息来推断标签 。很多情形,为了便于处理,使用互信息的下/上界代替互信息做计算,本文中,相当于最大化这样一个下界:

这就是传统的信息瓶颈目标函数。
在InfoBERT中,我们把通过BERT embedding之后得到的词汇级表示作为 ,除了前面这个压缩噪声的信息瓶颈正则项,作者还提出一个锚定特征正则项,用来抽取局部稳定特征并将它们与句子的全局表示进行对齐,用来提升语言表示的稳定性和鲁棒性。这部分的目标就是找到带给下游任务稳定、有效信息的特征,但奇妙的是,实际上作者先去寻找了不稳定、不有效的特征。作者认为通过对抗攻击可以找到面对攻击容易发生变动的词,那么稳定的句子表示应该尽可能减少对这些词的依赖;换言之,通过检查对每个词的特征扰动,我们可以找到对下游任务不那么有用的词, 例如停用词和标点, 它们所带的有效信息很少,对应的对抗扰动也很小,可以直接丢弃这些词。那么剩下的就是有用的、稳定的特征,可以用来对其全局进行特征表示。抽出局部锚定特征之后,要做的就是把这些特征与句子的全局表示对齐,这里也是通过最大化互信息来实现的,具体在公式中,作为一个额外的正则项出现。
通过上述算法抽出局部锚定特征之后,要做的就是把这些特征与句子的全局表示对齐,这里也是通过最大化互信息来实现的,具体在公式中,作为一个额外的正则项出现。
最终的目标函数变成了:

为了更方便的计算,作者采用Info NCE作为互信息下界进行估计。
论文的实验中,用到的对抗数据集有ANLI、Adversarial SQuAD和TextFooler。在ANLI上的结果如下图所示。实验表明:Info BERT在鲁棒性方面有显著的性能提升。
图12 InfoBERT的性能效果图

4.总结

鲁棒表示是ML模型安全可信赖使用的前提保障。本文从对抗样本的视角出发,分析了对抗样本产生的原因:1)ML自生的假设短板;2)数据的高维空间属性;3)强泛化的特征中存在高度耦合的非鲁棒特征。此外,本文对特征空间的直接和间接操作将提升鲁棒性表示的方法进行了简单的分类梳理和总结。尽管鲁棒表示相关研究已经有了一定的进展,但是还存在很多问题边界值得思考和探索:

1)更好的约束不同尺度表示之间的工具?互信息能够很好建模约束对齐特征关系,但是现有工作都是通过互信息上下界估计进行计算。在更苛刻条件下,高效的互信息估计方法是我们急迫需要的。此外,是否可以考虑其他潜在更有力的工具刻画约束和调节特征关系,例如金融领域的copula理论[45],控制领域的控制论[46]

2)对抗训练对模型泛化性能有显著帮助,在其他方面是否也有增益?在NLP任务中,对抗训练除了防止潜在攻击风险之外,现有的研究反而更多的是作为一种regularization提升模型泛化能力。因此,利用对抗样本的情形是否还可以帮助其他问题研究,例如领域迁移、数据隐私等?同样的,如果把鲁棒性AI系统看做是有限条件下的机器学习的一个特例,同理,我们是不是可以考虑其他现实条件限制的机器学习问题,例如低功耗情形、信息带宽受限情形等?

3)机器学习系统,其他维度不确定性问题?抛开对抗样本输入而言,对于机器学习系统,存在不确定因素的地方还有很多,除了表示之外,归纳偏执的大部分实际问题是没有明确的定性定量的监督信息边界的(很多的监督信息不能精确的人为定义或者有重叠,同时逻辑不能自洽),以及模型内部的特征交互方式从自注意力机制到胶囊网络的路由机制以及全局空间共享,我们又该如何思考其中的不确定性问题?

或许有一天,人工智能系统真的可以强大到战胜泰坦巨兽-哥斯拉,造福人类,但是如果我们不能保证AI系统安全可控的前提,正如影片中那样,人工智能带给我们的将不是福祉,而是AI哥斯拉(图13)一样无法挽回的灾难。总体而言,在追求AI技术便利和性能极致的同时,我们更应该谨慎AI系统的安全可靠的问题,对其中可能存在的不确定因素进行风险规避。AI系统鲁棒性问题早在2018年9月美国国防部预先研究计划局的“AI Next”项目以及2020年10月提出中国第三代人工智能概念中明确了立场,近几年开始蓬勃发展,也慢慢成为一个有潜力的研究方向。

图13 AI哥斯拉

参考资料

[1]

C. Szegedy et al., “Intriguing properties of neural networks,” presented at the 2nd International Conference on Learning Representations, ICLR 2014, Feb. 2014, Accessed: Mar. 24, 2021. [Online].

[2]

B. Biggio et al., “Evasion Attacks against Machine Learning at Test Time,” ECML PKDD 3, vol. 7908, pp. 387–402, 2013, doi: 10.1007/978-3-642-40994-3_25.

[3]

K. Xu et al., “Adversarial T-shirt! Evading Person Detectors in A Physical World,” Eur. Conf. Comput. Vis., Jul. 2020, Accessed: Mar. 24, 2021. [Online]. Available: http://arxiv.org/abs/1910.11099.

[4]

M. Cheng, W. Wei, and C.-J. Hsieh, “Evaluating and Enhancing the Robustness of Dialogue Systems: A Case Study on a Negotiation Agent,” in Proceedings of the 2019 Conference of the North, Minneapolis, Minnesota, 2019, pp. 3325–3335, doi: 10.18653/v1/n19-1336.

[5]

E. Dinan, S. Humeau, B. Chintagunta, and J. Weston, “Build it Break it Fix it for Dialogue Safety: Robustness from Adversarial Human Attack,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Hong Kong, China, 2019, pp. 4536–4545, doi: 10.18653/v1/D19-1461.

[6]

A. Einolghozati, S. Gupta, M. Mohit, and R. Shah, “Improving Robustness of Task Oriented Dialog Systems,” ArXiv191105153 Cs, Nov. 2019, Accessed: Jun. 27, 2020. [Online]. Available: http://arxiv.org/abs/1911.05153.

[7]

R. Jia and P. Liang, “Adversarial Examples for Evaluating Reading Comprehension Systems,” presented at the Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, Jul. 2017, Accessed: Jun. 27, 2020. [Online]. Available: http://arxiv.org/abs/1707.07328.

[8]

W. E. Zhang, Q. Z. Sheng, A. Alhazmi, and C. Li, “Adversarial Attacks on Deep-learning Models in Natural Language Processing: A Survey,” ACM Trans. Intell. Syst. Technol., vol. 11, no. 3, pp. 1–41, May 2020, doi: 10.1145/3374217.

[9]

M. T. Ribeiro, T. Wu, C. Guestrin, and S. Singh, “Beyond Accuracy: Behavioral Testing of NLP models with CheckList,” May 2020, pp. 4902--4912, Accessed: Jan. 08, 2021. [Online]. Available: http://arxiv.org/abs/2005.04118.

[10]

N. Carlini et al., “Extracting Training Data from Large Language Models,” ArXiv201207805 Cs, Dec. 2020, Accessed: Dec. 18, 2020. [Online]. Available: http://arxiv.org/abs/2012.07805.

[11]

M. Cheng, J. Yi, P.-Y. Chen, H. Zhang, and C.-J. Hsieh, “Seq2Sick: Evaluating the Robustness of Sequence-to-Sequence Models with Adversarial Examples,” in Proceedings of the AAAI Conference on Artificial Intelligence, Apr. 2020, vol. 34, pp. 3601–3608, Accessed: Jun. 27, 2020. [Online].

[12]

Z. Shi, H. Zhang, K.-W. Chang, M. Huang, and C.-J. Hsieh, “Robustness Verification for Transformers,” presented at the International Conference on Learning Representations, Feb. 2020, Accessed: Mar. 28, 2021. [Online]. Available: https://arxiv.org/abs/2002.06622v2.

[13]

B. Barrett, A. Camuto, M. Willetts, and T. Rainforth, “Certifiably Robust Variational Autoencoders,” ArXiv210207559 Cs Stat, Feb. 2021, Accessed: Mar. 09, 2021. [Online]. Available: http://arxiv.org/abs/2102.07559.

[14]

T. Gui et al., “TextFlint: Unified Multilingual Robustness Evaluation Toolkit for Natural Language Processing,” ArXiv210311441 Cs, Mar. 2021, Accessed: Mar. 26, 2021. [Online]. Available: http://arxiv.org/abs/2103.11441.

[15]

V. Behzadan and A. Munir, “Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks,” ArXiv170104143 Cs, Jan. 2017, Accessed: Apr. 01, 2021. [Online]. Available: http://arxiv.org/abs/1701.04143.

[16]

H. Dai et al., “Adversarial Attack on Graph Structured Data,” ArXiv180602371 Cs Stat, Jun. 2018, Accessed: Mar. 24, 2021. [Online]. Available: http://arxiv.org/abs/1806.02371.

[17]

N. Papernot, P. McDaniel, and I. Goodfellow, “Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples,” ArXiv160507277 Cs, May 2016, Accessed: Mar. 29, 2021. [Online]. Available: http://arxiv.org/abs/1605.07277.

[18]

张钹, 朱军, and 苏航, “迈向第三代人工智能,” 中国科学:信息科学, vol. 50, no. 09, pp. 1281–1302, 2020, doi: 10.1360/zf2010-40-9-1281.

[19]

I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and Harnessing Adversarial Examples,” ArXiv14126572 Cs Stat, Mar. 2015, Accessed: Mar. 24, 2021. [Online]. Available: http://arxiv.org/abs/1412.6572.

[20]

S.-M. Moosavi-Dezfooli, A. Fawzi, O. Fawzi, and P. Frossard, “Universal adversarial perturbations,” ArXiv161008401 Cs Stat, Mar. 2017, Accessed: Mar. 24, 2021. [Online]. Available: http://arxiv.org/abs/1610.08401.

[21]

Y. Dong, F. Bao, H. Su, and J. Zhu, “Towards Interpretable Deep Neural Networks by Leveraging Adversarial Examples,” ArXiv190109035 Cs Stat, Jan. 2019, Accessed: Jul. 05, 2020. [Online]. Available: http://arxiv.org/abs/1901.09035.

[22]

A. Ilyas, S. Santurkar, D. Tsipras, L. Engstrom, B. Tran, and A. Madry, “Adversarial Examples Are Not Bugs, They Are Features,” ArXiv190502175 Cs Stat, Aug. 2019, Accessed: Jun. 27, 2020. [Online]. Available: http://arxiv.org/abs/1905.02175.

[23]

A. Noack, I. Ahern, D. Dou, and B. Li, “An Empirical Study on the Relation Between Network Interpretability and Adversarial Robustness,” SN Comput. Sci., vol. 2, no. 1, p. 32, Feb. 2021, doi: 10.1007/s42979-020-00390-x.

[24]

B. Schölkopf et al., “Towards Causal Representation Learning,” ArXiv210211107 Cs, Feb. 2021, Accessed: Mar. 25, 2021. [Online]. Available: http://arxiv.org/abs/2102.11107.

[25]

A. Raghunathan, S. M. Xie, F. Yang, J. Duchi, and P. Liang, “Understanding and Mitigating the Tradeoff Between Robustness and Accuracy,” ArXiv200210716 Cs Stat, Feb. 2020, Accessed: Jun. 27, 2020. [Online]. Available: http://arxiv.org/abs/2002.10716.

[26]

Y. Li, T. Baldwin, and T. Cohn, “What’s in a Domain? Learning Domain-Robust Text Representations using Adversarial Training,” in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), New Orleans, Louisiana, 2018, pp. 474–479, doi: 10.18653/v1/N18-2076.

[27]

C. Zhu, Y. Cheng, Z. Gan, S. Sun, T. Goldstein, and J. Liu, “FreeLB: Enhanced Adversarial Training for Natural Language Understanding,” ArXiv190911764 Cs, Apr. 2020, Accessed: Mar. 31, 2021. [Online]. Available: http://arxiv.org/abs/1909.11764.

[28]

D. Pruthi, B. Dhingra, and Z. C. Lipton, “Combating Adversarial Misspellings with Robust Word Recognition,” in Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, 2019, pp. 5582–5591, doi: 10.18653/v1/P19-1561.

[29]

Y. Zhou, J.-Y. Jiang, K.-W. Chang, and W. Wang, “Learning to Discriminate Perturbations for Blocking Adversarial Attacks in Text Classification,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Hong Kong, China, 2019, pp. 4903–4912, doi: 10.18653/v1/D19-1496.

[30]

N. Papernot, P. McDaniel, X. Wu, S. Jha, and A. Swami, “Distillation as a Defense to Adversarial Perturbations against Deep Neural Networks,” ArXiv151104508 Cs Stat, Mar. 2016, Accessed: Mar. 28, 2021. [Online]. Available: http://arxiv.org/abs/1511.04508.

[31]

A. Malinin and M. Gales, “Reverse KL-Divergence Training of Prior Networks: Improved Uncertainty and Adversarial Robustness,” p. 12.

[32]

X. Wang et al., “Protecting Neural Networks with Hierarchical Random Switching: Towards Better Robustness-Accuracy Trade-off for Stochastic Defenses,” in Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, Macao, China, Aug. 2019, pp. 6013–6019, doi: 10.24963/ijcai.2019/833.

[33]

J. Wu, X. Li, X. Ao, Y. Meng, F. Wu, and J. Li, “Improving Robustness and Generality of NLP Models Using Disentangled Representations,” ArXiv200909587 Cs, Sep. 2020, Accessed: Sep. 30, 2020. [Online]. Available: http://arxiv.org/abs/2009.09587.

[34]

B. Wang et al., “INFOBERT: IMPROVING ROBUSTNESS OF LANGUAGE MODELS FROM AN INFORMATION THEORETIC PERSPECTIVE,” p. 21, 2021.

[35]

S. Sabour, N. Frosst, and G. E. Hinton, “Dynamic Routing Between Capsules,” ArXiv171009829 Cs, Nov. 2017, Accessed: Mar. 25, 2021. [Online]. Available: http://arxiv.org/abs/1710.09829.

[36]

A. Goyal et al., “Coordination Among Neural Modules Through a Shared Global Workspace,” ArXiv210301197 Cs Stat, Mar. 2021, Accessed: Mar. 21, 2021. [Online]. Available: http://arxiv.org/abs/2103.01197.

[37]

T. Pan, Y. Song, T. Yang, W. Jiang, and W. Liu, “VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples,” ArXiv210305905 Cs, Mar. 2021, Accessed: Mar. 21, 2021. [Online]. Available: http://arxiv.org/abs/2103.05905.

[38]

T. Chen, S. Kornblith, M. Norouzi, and G. Hinton, “A Simple Framework for Contrastive Learning of Visual Representations,” p. 11.

[39]

N. Tishby, F. C. Pereira, and W. Bialek, “The information bottleneck method,” arXiv:physics/0004057, Apr. 2000, Accessed: Mar. 11, 2021. [Online]. Available: http://arxiv.org/abs/physics/0004057.

[40]

M. Alzantot, Y. Sharma, A. Elgohary, B.-J. Ho, M. Srivastava, and K.-W. Chang, “Generating Natural Language Adversarial Examples,” ArXiv180407998 Cs, Sep. 2018, Accessed: Jun. 27, 2020. [Online]. Available: http://arxiv.org/abs/1804.07998.

[41]

S. Ren, Y. Deng, K. He, and W. Che, “Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency,” p. 13, doi: 10.18653/v1/P19-1103.

[42]

S. Chopra, R. Hadsell, and Y. LeCun, “Learning a Similarity Metric Discriminatively, with Application to Face Verification,” in 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), San Diego, CA, USA, 2005, vol. 1, pp. 539–546, doi: 10.1109/CVPR.2005.202.

[43]

E. Denton and V. Birodkar, “Unsupervised Learning of Disentangled Representations from Video,” ArXiv Cs Stat, May 2017, Accessed: Apr. 03, 2021. [Online]. Available: http://arxiv.org/abs/1705.10915.

[44]

L. Kong, C. de M. d’Autume, W. Ling, L. Yu, Z. Dai, and D. Yogatama, “A Mutual Information Maximization Perspective of Language Representation Learning,” ArXiv191008350 Cs, Nov. 2019, Accessed: Mar. 30, 2021. [Online]. Available: http://arxiv.org/abs/1910.08350.

[45]

K. Aas, C. Czado, A. Frigessi, and H. Bakken, “Pair-copula constructions of multiple dependence,” Insur. Math. Econ., vol. 44, no. 2, pp. 182–198, Apr. 2009, doi: 10.1016/j.insmatheco.2007.02.001.

[46]

K. Xu, C. Li, J. Zhu, and B. Zhang, “Understanding and Stabilizing GANs’ Training Dynamics using Control Theory,” in International Conference on Machine Learning, pp. 10566–10575.

本期责任编辑:赵森栋
本期编辑:朱文轩


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“R2L” 就可以获取鲁棒表示学习简述》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询

点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

对抗样本由Christian Szegedy等人提出,是指在数据集中通过故意添加细微的干扰所形成的输入样本,导致模型以高置信度给出一个错误的输出。在正则化背景下,通过对抗训练减少原有独立同分布的测试集的错误率——在对抗扰动的训练集样本上训练网络。 对抗样本是指通过在数据中故意添加细微的扰动生成的一种输入样本,能够导致神经网络模型给出一个错误的预测结果。 实质:对抗样本是通过向输入中加入人类难以察觉的扰动生成,能够改变人工智能模型的行为。其基本目标有两个,一是改变模型的预测结果;二是加入到输入中的扰动在人类看起来不足以引起模型预测结果的改变,具有表面上的无害性。对抗样本的相关研究对自动驾驶、智能家居等应用场景具有非常重要的意义。
专知会员服务
64+阅读 · 2021年5月29日
多模态预训练模型简述
专知会员服务
109+阅读 · 2021年4月27日
专知会员服务
43+阅读 · 2021年1月18日
专知会员服务
89+阅读 · 2021年1月17日
专知会员服务
95+阅读 · 2020年12月8日
最新《监督机器学习可解释性》2020大综述论文,74页pdf
专知会员服务
129+阅读 · 2020年11月19日
【Cell 2020】神经网络中的持续学习
专知会员服务
59+阅读 · 2020年11月7日
专知会员服务
142+阅读 · 2020年9月6日
【Science最新论文】XAI—可解释人工智能简述,机遇与挑战
专知会员服务
163+阅读 · 2019年12月21日
【SCIR笔记】文档级事件抽取简述
深度学习自然语言处理
17+阅读 · 2020年7月30日
训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现
PaperWeekly
12+阅读 · 2019年11月13日
一文读懂文本处理中的对抗训练
PaperWeekly
22+阅读 · 2019年6月5日
简述多种降维算法
算法与数学之美
10+阅读 · 2018年9月23日
一文简述ResNet及其多种变体
机器之心
23+阅读 · 2018年4月22日
学习如何学习的算法:简述元学习研究方向现状
深度学习世界
6+阅读 · 2018年4月9日
这是一份「不正经」的深度学习简述
深度学习世界
5+阅读 · 2018年3月24日
【深度】脆弱的神经网络:UC Berkeley详解对抗样本生成机制
GAN生成式对抗网络
5+阅读 · 2018年2月11日
入门 | 简述迁移学习在深度学习中的应用
机器之心
5+阅读 · 2018年1月5日
Towards Topic-Guided Conversational Recommender System
Arxiv
8+阅读 · 2020年10月7日
Arxiv
6+阅读 · 2017年12月2日
VIP会员
相关VIP内容
专知会员服务
64+阅读 · 2021年5月29日
多模态预训练模型简述
专知会员服务
109+阅读 · 2021年4月27日
专知会员服务
43+阅读 · 2021年1月18日
专知会员服务
89+阅读 · 2021年1月17日
专知会员服务
95+阅读 · 2020年12月8日
最新《监督机器学习可解释性》2020大综述论文,74页pdf
专知会员服务
129+阅读 · 2020年11月19日
【Cell 2020】神经网络中的持续学习
专知会员服务
59+阅读 · 2020年11月7日
专知会员服务
142+阅读 · 2020年9月6日
【Science最新论文】XAI—可解释人工智能简述,机遇与挑战
专知会员服务
163+阅读 · 2019年12月21日
相关资讯
【SCIR笔记】文档级事件抽取简述
深度学习自然语言处理
17+阅读 · 2020年7月30日
训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现
PaperWeekly
12+阅读 · 2019年11月13日
一文读懂文本处理中的对抗训练
PaperWeekly
22+阅读 · 2019年6月5日
简述多种降维算法
算法与数学之美
10+阅读 · 2018年9月23日
一文简述ResNet及其多种变体
机器之心
23+阅读 · 2018年4月22日
学习如何学习的算法:简述元学习研究方向现状
深度学习世界
6+阅读 · 2018年4月9日
这是一份「不正经」的深度学习简述
深度学习世界
5+阅读 · 2018年3月24日
【深度】脆弱的神经网络:UC Berkeley详解对抗样本生成机制
GAN生成式对抗网络
5+阅读 · 2018年2月11日
入门 | 简述迁移学习在深度学习中的应用
机器之心
5+阅读 · 2018年1月5日
Top
微信扫码咨询专知VIP会员