Despite impressive performance on standard benchmarks, deep neural networks are often brittle when deployed in real-world systems. Consequently, recent research has focused on testing the robustness of such models, resulting in a diverse set of evaluation methodologies ranging from adversarial attacks to rule-based data transformations. In this work, we identify challenges with evaluating NLP systems and propose a solution in the form of Robustness Gym (RG), a simple and extensible evaluation toolkit that unifies 4 standard evaluation paradigms: subpopulations, transformations, evaluation sets, and adversarial attacks. By providing a common platform for evaluation, Robustness Gym enables practitioners to compare results from all 4 evaluation paradigms with just a few clicks, and to easily develop and share novel evaluation methods using a built-in set of abstractions. To validate Robustness Gym's utility to practitioners, we conducted a real-world case study with a sentiment-modeling team, revealing performance degradations of 18%+. To verify that Robustness Gym can aid novel research analyses, we perform the first study of state-of-the-art commercial and academic named entity linking (NEL) systems, as well as a fine-grained analysis of state-of-the-art summarization models. For NEL, commercial systems struggle to link rare entities and lag their academic counterparts by 10%+, while state-of-the-art summarization models struggle on examples that require abstraction and distillation, degrading by 9%+. Robustness Gym can be found at https://robustnessgym.com/


翻译:尽管在标准基准上取得了令人印象深刻的成绩,但深神经网络在现实世界系统中部署时往往会萎缩,因此,最近的研究侧重于测试这些模型的稳健性,从而形成一套多种多样的评价方法,从对抗性攻击到基于规则的数据转换,从对抗性攻击到基于规则的数据转换不等。在这项工作中,我们通过评价NLP系统确定挑战,并以强力健身(RG)这个简单和可扩展的评价工具包的形式提出解决办法,它统一了4种标准评价模式:亚集体、变换、评估集体和对抗性攻击。通过提供一个共同的评价平台,Robustness Gym使从业者能够将所有4个评价模式的结果与仅点击几下的结果进行比较,并轻松地开发并分享使用一套内在的抽象模型集的新的评价方法。为了验证Robustness Gym对从业人员的效用,我们与一个情感模范组一起进行了一个真实世界的案例研究,揭示了18 ⁇ 的性性表现退化。 核查Robustness Gymm(Gym)能够帮助进行新式的研究分析,我们进行第一次研究,我们进行关于正态阵列的学术模型和学术模型作为Sal-al-al-al-al-al-lax-lax-lax-lax-lax-lax-lax-laxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

0
下载
关闭预览

相关内容

专知会员服务
72+阅读 · 2020年9月20日
专知会员服务
124+阅读 · 2020年9月8日
【DeepMind】强化学习教程,83页ppt
专知会员服务
157+阅读 · 2020年8月7日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
深度学习NLP相关资源大列表
机器学习研究会
3+阅读 · 2017年9月17日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
4+阅读 · 2019年1月1日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
VIP会员
相关VIP内容
专知会员服务
72+阅读 · 2020年9月20日
专知会员服务
124+阅读 · 2020年9月8日
【DeepMind】强化学习教程,83页ppt
专知会员服务
157+阅读 · 2020年8月7日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
相关资讯
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
深度学习NLP相关资源大列表
机器学习研究会
3+阅读 · 2017年9月17日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员