Data-centric AI has recently proven to be more effective and high-performance, while traditional model-centric AI delivers fewer and fewer benefits. It emphasizes improving the quality of datasets to achieve better model performance. This field has significant potential because of its great practicability and getting more and more attention. However, we have not seen significant research progress in this field, especially in NLP. We propose DataCLUE, which is the first Data-Centric benchmark applied in NLP field. We also provide three simple but effective baselines to foster research in this field (improve Macro-F1 up to 5.7% point). In addition, we conduct comprehensive experiments with human annotators and show the hardness of DataCLUE. We also try an advanced method: the forgetting informed bootstrapping label correction method. All the resources related to DataCLUE, including dataset, toolkit, leaderboard, and baselines, is available online at https://github.com/CLUEbenchmark/DataCLUE


翻译:以数据为中心的AI最近证明是更加有效和高性能的,而传统的以模式为中心的AI提供的效益越来越少,也越来越少。它强调提高数据集的质量,以取得更好的模型性能。这个领域具有巨大的潜力,因为它非常实用,而且越来越受到更多的关注。然而,我们没有看到这一领域的重大研究进展,特别是在NLP。我们提议DataCLUE,这是在NLP领域应用的第一个数据中心基准。我们还提供了三个简单而有效的基准,以促进这一领域的研究(在5.7%点至5.7%点之间推广宏观-F1)。此外,我们与人类计票员进行了全面实验,并展示了数据CLUE的硬性。我们还尝试了一种先进的方法:忘记知情靴式标签校正方法。所有与数据CLUE有关的资源,包括数据集、工具包、领导板和基线,都可以在https://github.com/CLUEbenchmark/DataCLUE上查阅。

0
下载
关闭预览

相关内容

NLP:自然语言处理
专知会员服务
35+阅读 · 2021年7月7日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
7+阅读 · 2019年10月10日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
39+阅读 · 2019年10月9日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
五个精彩实用的自然语言处理资源
机器学习研究会
6+阅读 · 2018年2月23日
已删除
将门创投
5+阅读 · 2017年11月22日
Arxiv
6+阅读 · 2020年9月29日
Asymmetrical Vertical Federated Learning
Arxiv
3+阅读 · 2020年6月11日
Adversarial Metric Attack for Person Re-identification
VIP会员
相关VIP内容
专知会员服务
35+阅读 · 2021年7月7日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
7+阅读 · 2019年10月10日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
五个精彩实用的自然语言处理资源
机器学习研究会
6+阅读 · 2018年2月23日
已删除
将门创投
5+阅读 · 2017年11月22日
Top
微信扫码咨询专知VIP会员