中文数据集有奖公开征集

2020 年 4 月 19 日 PaperWeekly


各位自然语言处理界的同仁:


我们是中文任务基准测评小组,即Chinese Language Understanding Evaluation(CLUE)的成员。我们收集、制作了一套中文自然语言理解评测平台:CLUE Benchmark。


CLUE Benchmark旨在综合形式不同、难度各异的中文自然语言理解数据集,制作一个统一的测试平台,以准确评价模型的自然语言理解能力。目前我们已经收集了至少9大数据集,并制作了排行榜。包括华为、阿里、腾讯等公司,以及中科院相关院所等高校参与了测评。我们的GitHub repository已获得超过1000个星。


我们的网站:

https://www.CLUEbenchmarks.com

论文的arxiv地址:

https://arxiv.org/abs/2004.05986

Github地址:

https://github.com/CLUEbenchmark



现在,我们诚挚邀请中文自然语言理解方面的专家学者、老师同学、参与者为我们提供更多的中文自然语言理解数据集。这些数据集可以是您自己制作推出的,也可以是您认为很有意义但是是他人制作的数据集。我们计划在5月14日前完成筛选,推出正式的CLUE Benchmark。请您将推荐数据集的名称、作者、形式以及License情况发送至 CLUE@CLUEBenchmarks.com
 
【奖励】如果您推荐的数据集被选中,将能提高扩展数据集的知名度,并为学界、业界对自然语言理解的研究做出贡献。CLUE组织会引用和推广该数据集;我们也会结合数据集质量、意义、量级和标注难度、任务类型设置不同等级的奖励,给与1000--5000元现金奖励。
 
您推荐的数据集需要满足以下【要求】:
 
1、【任务与自然语言理解相关】
我们要求数据集能够测试模型是否理解了中文,模型可以是以研究为导向,也可以由实际应用为导向,重点是需要包含语言理解的成分。任务本身质量还不错。

2、【任务形式】
任务输入是一段文本(可长可短),具体任务可以是分类、序列标注、指代消歧、多项选择、回归任务,等等。任务最好能够使用基本的神经网络模型做出基线,方便测评。

3、【能够测评】

提交的任务需要有简单、客观的评测标准。如果是包含文本生成的项目,那么需要证明该项目有易行的可靠评测标准。

4、【公开的训练数据】
任务的训练数据和开发数据需要公开,并且能够由CLUE使用。

5、【未公开的测试集】
任务最好有尚未公开的测试集。

6、【任务难度】
提交的任务不能太简单。具体来讲,目前的模型如BERT应该比训练过的普通标注者做的差很多。



 
 

🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



登录查看更多
1

相关内容

【MIT-ICML2020】图神经网络的泛化与表示的局限
专知会员服务
42+阅读 · 2020年6月23日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
面向司法案件的案情知识图谱自动构建
专知会员服务
125+阅读 · 2020年4月17日
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
68+阅读 · 2020年2月29日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
213+阅读 · 2020年2月21日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
评测 | 2020 年全国知识图谱与语义计算大会评测任务征集
ChineseGLUE:为中文NLP模型定制的自然语言理解基准
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
命名实体识别从数据集到算法实现
专知
55+阅读 · 2018年6月28日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
4+阅读 · 2018年1月19日
Arxiv
6+阅读 · 2016年1月15日
VIP会员
相关VIP内容
【MIT-ICML2020】图神经网络的泛化与表示的局限
专知会员服务
42+阅读 · 2020年6月23日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
面向司法案件的案情知识图谱自动构建
专知会员服务
125+阅读 · 2020年4月17日
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
68+阅读 · 2020年2月29日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
213+阅读 · 2020年2月21日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
相关论文
Arxiv
7+阅读 · 2020年3月1日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
4+阅读 · 2018年1月19日
Arxiv
6+阅读 · 2016年1月15日
Top
微信扫码咨询专知VIP会员