Adversarial training (AT) is one of the most reliable methods for defending against adversarial attacks in machine learning. Variants of this method have been used as regularization mechanisms to achieve SOTA results on NLP benchmarks, and they have been found to be useful for transfer learning and continual learning. We search for the reasons for the effectiveness of AT by contrasting vanilla and adversarially fine-tuned BERT models. We identify partial preservation of BERT's syntactic abilities during fine-tuning as the key to the success of AT. We observe that adversarially fine-tuned models remain more faithful to BERT's language modeling behavior and are more sensitive to the word order. As concrete examples of syntactic abilities, an adversarially fine-tuned model could have an advantage of up to 38% on anaphora agreement and up to 11% on dependency parsing. Our analysis demonstrates that vanilla fine-tuning oversimplifies the sentence representation by focusing heavily on a small subset of words. AT, however, moderates the effect of these influential words and encourages representational diversity. This allows for a more hierarchical representation of a sentence and leads to the mitigation of BERT's loss of syntactic abilities.


翻译:Aversarial 培训(AT)是防止机器学习中对抗性攻击的最可靠方法之一,这种方法的变式已被作为正规化机制,用于在NLP基准上实现SOTA结果,这些变式被认为对转移学习和继续学习有用。我们通过对比香草和对抗性微调BERT模型寻找AT有效性的原因。我们发现,微调时部分保留BERT的综合能力是AT成功的关键。我们注意到,对抗性微调模式仍然更忠实于BERT的语言模拟行为,并且更敏感于单词顺序。作为合成能力的具体例子,对抗性微调模式的优点可能是在Anaphora协议上高达38%,在依赖性对等上高达11%。我们的分析表明,Vanilla微调了刑罚代表的简单化,主要侧重于一小组词。但是,这些有影响力的字眼的影响和鼓励代表性的多样性。这样可以使Aphora-phora 协议的排序能力降低到更分级。

0
下载
关闭预览

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
预训练语言模型fine-tuning近期进展概述
专知会员服务
36+阅读 · 2021年4月9日
BERT进展2019四篇必读论文
专知会员服务
65+阅读 · 2020年1月2日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
一文详解Google最新NLP模型XLNet
PaperWeekly
17+阅读 · 2019年7月1日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
3分钟看懂史上最强NLP模型BERT
机器学习算法与Python学习
7+阅读 · 2019年2月27日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
谷歌BERT模型深度解析
AINLP
42+阅读 · 2018年11月15日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
资源|斯坦福课程:深度学习理论!
全球人工智能
16+阅读 · 2017年11月9日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2020年10月22日
Revealing the Dark Secrets of BERT
Arxiv
4+阅读 · 2019年9月11日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Adversarial Metric Attack for Person Re-identification
Adversarial Reprogramming of Neural Networks
Arxiv
3+阅读 · 2018年6月28日
Arxiv
4+阅读 · 2015年3月20日
VIP会员
相关资讯
一文详解Google最新NLP模型XLNet
PaperWeekly
17+阅读 · 2019年7月1日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
3分钟看懂史上最强NLP模型BERT
机器学习算法与Python学习
7+阅读 · 2019年2月27日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
谷歌BERT模型深度解析
AINLP
42+阅读 · 2018年11月15日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
资源|斯坦福课程:深度学习理论!
全球人工智能
16+阅读 · 2017年11月9日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
5+阅读 · 2020年10月22日
Revealing the Dark Secrets of BERT
Arxiv
4+阅读 · 2019年9月11日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Adversarial Metric Attack for Person Re-identification
Adversarial Reprogramming of Neural Networks
Arxiv
3+阅读 · 2018年6月28日
Arxiv
4+阅读 · 2015年3月20日
Top
微信扫码咨询专知VIP会员