Machine Reading Comprehension (MRC) is an important testbed for evaluating models' natural language understanding (NLU) ability. There has been rapid progress in this area, with new models achieving impressive performance on various benchmarks. However, existing benchmarks only evaluate models on in-domain test sets without considering their robustness under test-time perturbations or adversarial attacks. To fill this important gap, we construct AdvRACE (Adversarial RACE), a new model-agnostic benchmark for evaluating the robustness of MRC models under four different types of adversarial attacks, including our novel distractor extraction and generation attacks. We show that state-of-the-art (SOTA) models are vulnerable to all of these attacks. We conclude that there is substantial room for building more robust MRC models and our benchmark can help motivate and measure progress in this area. We release our data and code at https://github.com/NoviScl/AdvRACE .


翻译:机器阅读理解(MRC)是评价模型自然语言理解能力的一个重要测试点,在这方面取得了迅速的进展,新的模型在各种基准上取得了令人印象深刻的业绩;然而,现有的基准只评价了主体内试验机组的模型,而没有考虑到它们在试验时的扰动或对抗性攻击情况下的稳健性;为填补这一重要空白,我们建造了AdvRACE(Adversarial RACE),这是在四种不同类型的对抗性攻击下评价MRC模型的稳健性的新模型――不可知性基准,这四种类型的攻击包括我们的新颖的分散器提取和生成攻击。我们表明,最先进的(SOTA)模型易受所有这些攻击的影响。我们的结论是,在建立更强大的MRC模型方面有很大的空间,我们的基准可以帮助推动和衡量这一领域的进展。我们在https://github.com/NoviScl/AdvRACE公布我们的数据和代码。

0
下载
关闭预览

相关内容

【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
30+阅读 · 2020年12月20日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
AI 竞赛 | 2018 机器阅读理解技术竞赛
AI研习社
7+阅读 · 2018年3月16日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
3+阅读 · 2018年11月29日
VIP会员
相关资讯
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
AI 竞赛 | 2018 机器阅读理解技术竞赛
AI研习社
7+阅读 · 2018年3月16日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Top
微信扫码咨询专知VIP会员