安全胜于歉意:通过反向培训防止幻觉反言 (Better Safe Than Sorry: Preventing Delusive Adversaries with Adversarial Training) - 专知论文

会员服务 ·

0

Better · 模型评估 · AIM · Principle · 情景 ·

2021 年 11 月 8 日

Better Safe Than Sorry: Preventing Delusive Adversaries with Adversarial Training

翻译：安全胜于歉意:通过反向培训防止幻觉反言

Lue Tao,Lei Feng,Jinfeng Yi,Sheng-Jun Huang,Songcan Chen

from arxiv, NeurIPS 2021

Delusive attacks aim to substantially deteriorate the test accuracy of the learning model by slightly perturbing the features of correctly labeled training examples. By formalizing this malicious attack as finding the worst-case training data within a specific $\infty$-Wasserstein ball, we show that minimizing adversarial risk on the perturbed data is equivalent to optimizing an upper bound of natural risk on the original data. This implies that adversarial training can serve as a principled defense against delusive attacks. Thus, the test accuracy decreased by delusive attacks can be largely recovered by adversarial training. To further understand the internal mechanism of the defense, we disclose that adversarial training can resist the delusive perturbations by preventing the learner from overly relying on non-robust features in a natural setting. Finally, we complement our theoretical findings with a set of experiments on popular benchmark datasets, which show that the defense withstands six different practical attacks. Both theoretical and empirical results vote for adversarial training when confronted with delusive adversaries.

翻译：故意攻击的目的是通过略微扰乱贴有正确标签的培训实例的特征,大大降低学习模式的测试准确性。我们通过将这一恶意攻击正规化为在特定的美元-瓦瑟斯坦球中找到最坏情况的培训数据,表明将受扰动数据中的对抗风险降到最低程度,相当于优化原始数据中自然风险的上限。这意味着对抗性训练可以作为抵御欺骗性攻击的原则性防御。因此,通过对抗性攻击的测试准确性可以在很大程度上通过对抗性训练来恢复。为了进一步理解内部防御机制,我们透露对抗性训练可以抵制破坏性干扰,防止学习者过度依赖自然环境中的非野蛮特征。最后,我们用一套关于流行基准数据集的实验来补充我们的理论结论,这些实验表明,防御性攻击可以经受六种不同的实际攻击。在与击溃动性对手对抗时,对对抗性攻击的理论性和经验性结果投票。

0

相关内容

Better

面向自然语言处理的深度学习对抗样本综述

专知会员服务

44+阅读 · 2021年5月6日

不可错过！UIUC最新《对抗机器学习》课程，附PPT

专知会员服务

35+阅读 · 2020年12月28日

[NeurIPS 2020]对图神经网络更实际的对抗式攻击

[NeurIPS 2020]对图神经网络更实际的对抗式攻击

专知会员服务

9+阅读 · 2020年11月1日

【Google】深度学习对抗鲁棒性，43页ppt

专知会员服务

45+阅读 · 2020年10月31日

【Google】平滑对抗训练，Smooth Adversarial Training

【Google】平滑对抗训练，Smooth Adversarial Training

专知会员服务

49+阅读 · 2020年7月4日

【google】监督对比学习，Supervised Contrastive Learning

【google】监督对比学习，Supervised Contrastive Learning

专知会员服务

32+阅读 · 2020年4月23日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

252+阅读 · 2020年4月19日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【NeurIPS2019】基于累加噪声的对抗鲁棒性（Certified Adversarial Robustness with Additive Noise），Changyou Chen

【NeurIPS2019】基于累加噪声的对抗鲁棒性（Certified Adversarial Robustness with Additive Noise），Changyou Chen

专知会员服务

36+阅读 · 2019年11月12日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Disentangled的假设的探讨

Disentangled的假设的探讨

CreateAMind

9+阅读 · 2018年12月10日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

人工智能 | 国际会议截稿信息9条

人工智能 | 国际会议截稿信息9条

Call4Papers

4+阅读 · 2018年3月13日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【推荐】直接未来预测：增强学习监督学习

【推荐】直接未来预测：增强学习监督学习

机器学习研究会

6+阅读 · 2017年11月24日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

Game Theory for Adversarial Attacks and Defenses

Arxiv

0+阅读 · 2022年1月12日

Preventing Manifold Intrusion with Locality: Local Mixup

Arxiv

0+阅读 · 2022年1月12日

Adversarial Feature Desensitization

Arxiv

0+阅读 · 2022年1月4日

On the effectiveness of adversarial training against common corruptions

Arxiv

0+阅读 · 2022年1月4日

Unifying Model Explainability and Robustness for Joint Text Classification and Rationale Extraction

Arxiv

7+阅读 · 2021年12月20日

Fundamental Tradeoffs in Distributionally Adversarial Training

Arxiv

9+阅读 · 2021年1月15日

Contrastive Learning with Adversarial Examples

Arxiv

5+阅读 · 2020年10月22日

Feature Denoising for Improving Adversarial Robustness

Feature Denoising for Improving Adversarial Robustness

Arxiv

15+阅读 · 2018年12月9日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

Generating Adversarial Examples with Adversarial Networks

Arxiv

10+阅读 · 2018年1月15日

VIP会员

文章信息

相关主题

相关VIP内容

面向自然语言处理的深度学习对抗样本综述

专知会员服务

44+阅读 · 2021年5月6日

不可错过！UIUC最新《对抗机器学习》课程，附PPT

专知会员服务

35+阅读 · 2020年12月28日

[NeurIPS 2020]对图神经网络更实际的对抗式攻击

[NeurIPS 2020]对图神经网络更实际的对抗式攻击

专知会员服务

9+阅读 · 2020年11月1日

【Google】深度学习对抗鲁棒性，43页ppt

专知会员服务

45+阅读 · 2020年10月31日

【Google】平滑对抗训练，Smooth Adversarial Training

【Google】平滑对抗训练，Smooth Adversarial Training

专知会员服务

49+阅读 · 2020年7月4日

【google】监督对比学习，Supervised Contrastive Learning

【google】监督对比学习，Supervised Contrastive Learning

专知会员服务

32+阅读 · 2020年4月23日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

252+阅读 · 2020年4月19日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【NeurIPS2019】基于累加噪声的对抗鲁棒性（Certified Adversarial Robustness with Additive Noise），Changyou Chen

【NeurIPS2019】基于累加噪声的对抗鲁棒性（Certified Adversarial Robustness with Additive Noise），Changyou Chen

专知会员服务

36+阅读 · 2019年11月12日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《利用大语言模型（LLM）优化海军陆战队经验教训学习》2025年最新103页

《加拿大陆军顶层作战概念》2025最新33页

超越第一人称视角（FPV）无人机：汲取俄乌战争的全部教训

《瓦洛伦斯（ValoRens）项目 - 预测分析：解读敌方意图》

相关资讯

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Disentangled的假设的探讨

Disentangled的假设的探讨

CreateAMind

9+阅读 · 2018年12月10日

【SIGIR2018】五篇对抗训练文章

【SIGIR2018】五篇对抗训练文章

专知

12+阅读 · 2018年7月9日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

人工智能 | 国际会议截稿信息9条

人工智能 | 国际会议截稿信息9条

Call4Papers

4+阅读 · 2018年3月13日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【推荐】直接未来预测：增强学习监督学习

【推荐】直接未来预测：增强学习监督学习

机器学习研究会

6+阅读 · 2017年11月24日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

相关论文

Game Theory for Adversarial Attacks and Defenses

Arxiv

0+阅读 · 2022年1月12日

Preventing Manifold Intrusion with Locality: Local Mixup

Arxiv

0+阅读 · 2022年1月12日

Adversarial Feature Desensitization

Arxiv

0+阅读 · 2022年1月4日

On the effectiveness of adversarial training against common corruptions

Arxiv

0+阅读 · 2022年1月4日

Unifying Model Explainability and Robustness for Joint Text Classification and Rationale Extraction

Arxiv

7+阅读 · 2021年12月20日

Fundamental Tradeoffs in Distributionally Adversarial Training

Arxiv

9+阅读 · 2021年1月15日

Contrastive Learning with Adversarial Examples

Arxiv

5+阅读 · 2020年10月22日

Feature Denoising for Improving Adversarial Robustness

Feature Denoising for Improving Adversarial Robustness

Arxiv

15+阅读 · 2018年12月9日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

Generating Adversarial Examples with Adversarial Networks

Arxiv

10+阅读 · 2018年1月15日

微信扫码咨询专知VIP会员