【ICLR2021】面向词替换攻击的对抗训练方法 - 专知VIP

会员服务 ·

1

自然语言处理 · 对抗防御 ·

2021 年 2 月 7 日

【ICLR2021】面向词替换攻击的对抗训练方法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

该论文提出一种面向词替换攻击的对抗训练方法。该方法先将词替换攻击建模为词向量空间上的凸包络，并香农熵对凸组合参数进行正则，提出了对抗稀疏凸组合模型，该模型可以贴合语言的规律，高效地生成对抗句子，以攻击已有深度语言模型。随后，将该模型与对抗训练整合实现不易被攻击的鲁棒模型训练。相比之前的方法，该模型有如下的好处：1）包含所有可能出现的对抗噪声。2）凸集利于优化 3）替换词组集合的数量最小。论文提出的防御方法在情感分类和语言推断任务中均有较大的鲁棒性提升

论文由新加坡南洋理工大学董新帅同学、日本国立信息学研究所刘弘博士、厦门大学纪荣嵘教授、以及麻省理工学院的Anh Tuan Luu博士合作完成。论文中的董新帅同学和刘弘博士皆为厦门大学MAC实验室毕业学生，通讯作者是纪荣嵘教授。

https://openreview.net/forum?id=ks5nebunVn_

成为VIP会员查看完整内容

21

相关内容

自然语言处理

自然语言处理

自然语言处理（NLP）是语言学，计算机科学，信息工程和人工智能的一个子领域，与计算机和人类（自然）语言之间的相互作用有关，尤其是如何对计算机进行编程以处理和分析大量自然语言数据。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【AAAI2021】组合对抗攻击

【AAAI2021】组合对抗攻击

专知会员服务

51+阅读 · 2021年2月17日

【ICLR2021】基于图信息瓶颈的子图识别

专知会员服务

19+阅读 · 2021年2月8日

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

专知会员服务

15+阅读 · 2021年1月31日

【ICLR2021】基于动态正则化的联邦学习

专知会员服务

42+阅读 · 2021年1月18日

【NeurIPS2020】用于鲁棒估计和自动结构发现的多任务加性模型

专知会员服务

9+阅读 · 2020年12月21日

对抗攻击之利用水印生成对抗样本

对抗攻击之利用水印生成对抗样本

计算机视觉life

10+阅读 · 2020年9月27日

虚拟对抗训练：一种新颖的半监督学习正则化方法

虚拟对抗训练：一种新颖的半监督学习正则化方法

人工智能前沿讲习班

8+阅读 · 2019年6月9日

一文读懂文本处理中的对抗训练

一文读懂文本处理中的对抗训练

PaperWeekly

22+阅读 · 2019年6月5日

CVPR 2019 | 图像压缩重建也能抵御对抗样本

CVPR 2019 | 图像压缩重建也能抵御对抗样本

计算机视觉life

3+阅读 · 2019年4月26日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

Distilling a Powerful Student Model via Online Knowledge Distillation

Arxiv

0+阅读 · 2021年3月26日

VDM-DA: Virtual Domain Modeling for Source Data-free Domain Adaptation

Arxiv

1+阅读 · 2021年3月26日

Neural Attention Distillation: Erasing Backdoor Triggers from Deep Neural Networks

Arxiv

5+阅读 · 2021年1月27日

Automated Storytelling via Causal, Commonsense Plot Ordering

Arxiv

8+阅读 · 2020年12月30日

Knowledge Distillation from Internal Representations

Knowledge Distillation from Internal Representations

Arxiv

4+阅读 · 2019年10月8日

VIP会员

相关主题

自然语言处理

相关VIP内容

【AAAI2021】组合对抗攻击

【AAAI2021】组合对抗攻击

专知会员服务

51+阅读 · 2021年2月17日

【ICLR2021】基于图信息瓶颈的子图识别

专知会员服务

19+阅读 · 2021年2月8日

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

专知会员服务

15+阅读 · 2021年1月31日

【ICLR2021】基于动态正则化的联邦学习

专知会员服务

42+阅读 · 2021年1月18日

【NeurIPS2020】用于鲁棒估计和自动结构发现的多任务加性模型

专知会员服务

9+阅读 · 2020年12月21日

热门VIP内容

开通专知VIP会员享更多权益服务

【MIT博士论文】弱监督学习：理论、方法与应用

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

锚定情报：合成欺骗时代的地面真相

NeurIPS 2025 | NMKE：基于神经元归因与动态稀疏掩码的终身知识编辑

相关资讯

对抗攻击之利用水印生成对抗样本

对抗攻击之利用水印生成对抗样本

计算机视觉life

10+阅读 · 2020年9月27日

虚拟对抗训练：一种新颖的半监督学习正则化方法

虚拟对抗训练：一种新颖的半监督学习正则化方法

人工智能前沿讲习班

8+阅读 · 2019年6月9日

一文读懂文本处理中的对抗训练

一文读懂文本处理中的对抗训练

PaperWeekly

22+阅读 · 2019年6月5日

CVPR 2019 | 图像压缩重建也能抵御对抗样本

CVPR 2019 | 图像压缩重建也能抵御对抗样本

计算机视觉life

3+阅读 · 2019年4月26日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

相关论文

Distilling a Powerful Student Model via Online Knowledge Distillation

Arxiv

0+阅读 · 2021年3月26日

VDM-DA: Virtual Domain Modeling for Source Data-free Domain Adaptation

Arxiv

1+阅读 · 2021年3月26日

Neural Attention Distillation: Erasing Backdoor Triggers from Deep Neural Networks

Arxiv

5+阅读 · 2021年1月27日

Automated Storytelling via Causal, Commonsense Plot Ordering

Arxiv

8+阅读 · 2020年12月30日

Knowledge Distillation from Internal Representations

Knowledge Distillation from Internal Representations

Arxiv

4+阅读 · 2019年10月8日

微信扫码咨询专知VIP会员