Despite the availability of very large datasets and pretrained models, state-of-the-art question answering models remain susceptible to a variety of adversarial attacks and are still far from obtaining human-level language understanding. One proposed way forward is dynamic adversarial data collection, in which a human annotator attempts to create examples for which a model-in-the-loop fails. However, this approach comes at a higher cost per sample and slower pace of annotation, as model-adversarial data requires more annotator effort to generate. In this work, we investigate several answer selection, question generation, and filtering methods that form a synthetic adversarial data generation pipeline that takes human-generated adversarial samples and unannotated text to create synthetic question-answer pairs. Models trained on both synthetic and human-generated data outperform models not trained on synthetic adversarial data, and obtain state-of-the-art results on the AdversarialQA dataset with overall performance gains of 3.7F1. Furthermore, we find that training on the synthetic adversarial data improves model generalisation across domains for non-adversarial data, demonstrating gains on 9 of the 12 datasets for MRQA. Lastly, we find that our models become considerably more difficult to beat by human adversaries, with a drop in macro-averaged validated model error rate from 17.6% to 8.8% when compared to non-augmented models.


翻译:尽管存在非常庞大的数据集和未经培训的模型,但最先进的回答问题模型仍然易受各种对抗性攻击的影响,而且远未获得人际语言理解。建议的一个前进办法是动态对抗性数据收集,其中一名人类说明员试图创建模型失败的范例,但这种方法的每个样本成本较高,批注速度较慢,因为模型对抗性数据需要更多说明性努力才能产生。在这项工作中,我们调查了几种答案选择、问题生成和过滤方法,这些答案选择、问题生成和过滤方法形成合成对抗性数据生成管道,由人生成的对抗性样本和无附加说明的文本组成合成问答配对。在合成和人为生成数据模型上都经过培训的模型试图创建模型,但未经合成对抗性数据培训的模型优于人际模型,在AdversarialQA数据集上取得了最新的最新结果,总体业绩收益为3.7F1. 此外,我们发现合成对抗性数据模型的培训改善了各域非对抗性数据生成模型的模型,生成问题生成问题和筛选文本文本文本文本文本文本文本,用以创建合成对合成数据进行合成对口对口对口的版本的样本,显示在12个模型中,比18的宏观数据率中,我们从10比18的模型比18的模型要差为低得多。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
专知会员服务
44+阅读 · 2020年10月31日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
108+阅读 · 2020年6月10日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
110+阅读 · 2020年5月15日
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
已删除
将门创投
4+阅读 · 2019年4月1日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
Arxiv
6+阅读 · 2018年4月21日
Arxiv
11+阅读 · 2018年3月23日
VIP会员
相关资讯
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
已删除
将门创投
4+阅读 · 2019年4月1日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员