Various robustness evaluation methodologies from different perspectives have been proposed for different natural language processing (NLP) tasks. These methods have often focused on either universal or task-specific generalization capabilities. In this work, we propose a multilingual robustness evaluation platform for NLP tasks (TextFlint) that incorporates universal text transformation, task-specific transformation, adversarial attack, subpopulation, and their combinations to provide comprehensive robustness analysis. TextFlint enables practitioners to automatically evaluate their models from all aspects or to customize their evaluations as desired with just a few lines of code. To guarantee user acceptability, all the text transformations are linguistically based, and we provide a human evaluation for each one. TextFlint generates complete analytical reports as well as targeted augmented data to address the shortcomings of the model's robustness. To validate TextFlint's utility, we performed large-scale empirical evaluations (over 67,000 evaluations) on state-of-the-art deep learning models, classic supervised methods, and real-world systems. Almost all models showed significant performance degradation, including a decline of more than 50% of BERT's prediction accuracy on tasks such as aspect-level sentiment classification, named entity recognition, and natural language inference. Therefore, we call for the robustness to be included in the model evaluation, so as to promote the healthy development of NLP technology.


翻译:从不同角度提出了不同自然语言处理(NLP)任务的各种稳健性评价方法。这些方法通常侧重于通用或特定任务的一般化能力。在这项工作中,我们提议为NLP任务(TextFlint)建立一个多语言稳健性评价平台(TextFlint),该平台包含通用文本转换、具体任务转换、对抗性攻击、亚人口及其组合,以提供全面稳健性分析。TextFlint使从业人员能够自动评价其所有方面的模型,或按需要定制其评价,只有几行代码。为了保证用户的可接受性,所有文本转换都以语言为基础,我们为每项任务提供人文评价。TextFlint生成了完整的分析报告以及有针对性的强化数据,以解决模式稳健性的缺陷。为了验证TextFlint的效用,我们进行了大规模的经验评价(超过67 000项评价),对最新深入学习模式、经典监督方法和现实世界系统进行了必要的评估。几乎所有模型都显示业绩严重退化,包括超过50%的文本变换,我们为每个任务提供了人文评估的50%以上。我们要求的准确性评估,因此,在自然意识和科学的准确性方面,我们要求进行了评估。在评估中,将评估中将评估列为。我们要求的准确性方面,将评估列为。

0
下载
关闭预览

相关内容

【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
专知会员服务
38+阅读 · 2020年9月6日
因果图,Causal Graphs,52页ppt
专知会员服务
241+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
7+阅读 · 2018年11月6日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
相关资讯
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Top
微信扫码咨询专知VIP会员