中文数据集有奖公开征集 - 专知

会员服务 ·

0

中文数据集有奖公开征集

2020 年 4 月 19 日 PaperWeekly

各位自然语言处理界的同仁：

我们是中文任务基准测评小组，即Chinese Language Understanding Evaluation(CLUE)的成员。我们收集、制作了一套中文自然语言理解评测平台：CLUE Benchmark。

CLUE Benchmark旨在综合形式不同、难度各异的中文自然语言理解数据集，制作一个统一的测试平台，以准确评价模型的自然语言理解能力。目前我们已经收集了至少9大数据集，并制作了排行榜。包括华为、阿里、腾讯等公司，以及中科院相关院所等高校参与了测评。我们的GitHub repository已获得超过1000个星。

我们的网站：

https://www.CLUEbenchmarks.com

论文的arxiv地址：

https://arxiv.org/abs/2004.05986

Github地址：

https://github.com/CLUEbenchmark

现在，我们诚挚邀请中文自然语言理解方面的专家学者、老师同学、参与者为我们提供更多的中文自然语言理解数据集。这些数据集可以是您自己制作推出的，也可以是您认为很有意义但是是他人制作的数据集。我们计划在5月14日前完成筛选，推出正式的CLUE Benchmark。请您将推荐数据集的名称、作者、形式以及License情况发送至 CLUE@CLUEBenchmarks.com

【奖励】如果您推荐的数据集被选中，将能提高扩展数据集的知名度，并为学界、业界对自然语言理解的研究做出贡献。CLUE组织会引用和推广该数据集；我们也会结合数据集质量、意义、量级和标注难度、任务类型设置不同等级的奖励，给与1000--5000元现金奖励。

您推荐的数据集需要满足以下【要求】：

1、【任务与自然语言理解相关】

我们要求数据集能够测试模型是否理解了中文，模型可以是以研究为导向，也可以由实际应用为导向，重点是需要包含语言理解的成分。任务本身质量还不错。

2、【任务形式】

任务输入是一段文本（可长可短），具体任务可以是分类、序列标注、指代消歧、多项选择、回归任务，等等。任务最好能够使用基本的神经网络模型做出基线，方便测评。

3、【能够测评】

提交的任务需要有简单、客观的评测标准。如果是包含文本生成的项目，那么需要证明该项目有易行的可靠评测标准。

4、【公开的训练数据】

任务的训练数据和开发数据需要公开，并且能够由CLUE使用。

5、【未公开的测试集】

任务最好有尚未公开的测试集。

6、【任务难度】

提交的任务不能太简单。具体来讲，目前的模型如BERT应该比训练过的普通标注者做的差很多。

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多

1

相关内容

CLUE

【MIT-ICML2020】图神经网络的泛化与表示的局限

【MIT-ICML2020】图神经网络的泛化与表示的局限

专知会员服务

43+阅读 · 2020年6月23日

【微众银行】联邦学习白皮书_v2.0，48页pdf，

【微众银行】联邦学习白皮书_v2.0，48页pdf，

专知会员服务

170+阅读 · 2020年4月26日

面向司法案件的案情知识图谱自动构建

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日

CCKS 2019 知识图谱评测技术报告：实体、关系、事件及问答

专知会员服务

163+阅读 · 2020年3月11日

Capsule Networks，胶囊网络，57页ppt，布法罗大学

Capsule Networks，胶囊网络，57页ppt，布法罗大学

专知会员服务

69+阅读 · 2020年2月29日

【2020新书】数据科学:十大Python项目，247页pdf

【2020新书】数据科学:十大Python项目，247页pdf

专知会员服务

216+阅读 · 2020年2月21日

必读的10篇 ICML 2019【图神经网络（GNN）】相关论文和代码

必读的10篇 ICML 2019【图神经网络（GNN）】相关论文和代码

专知会员服务

66+阅读 · 2020年1月10日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

知识图谱更新技术研究及其应用，复旦大学硕士论文

知识图谱更新技术研究及其应用，复旦大学硕士论文

专知会员服务

105+阅读 · 2019年11月4日

中文知识图谱构建技术以及应用的综述

中文知识图谱构建技术以及应用的综述

专知会员服务

317+阅读 · 2019年10月19日

评测报名 | 全国知识图谱与语义计算大会(CCKS 2020)技术评测任务发布

评测报名 | 全国知识图谱与语义计算大会(CCKS 2020)技术评测任务发布

开放知识图谱

144+阅读 · 2020年3月20日

评测 | 2020 年全国知识图谱与语义计算大会评测任务征集

评测 | 2020 年全国知识图谱与语义计算大会评测任务征集

开放知识图谱

34+阅读 · 2020年1月16日

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

机器之心

4+阅读 · 2019年10月23日

中文自然语言处理开放任务介绍、数据集、当前最佳结果分享

中文自然语言处理开放任务介绍、数据集、当前最佳结果分享

深度学习与NLP

14+阅读 · 2019年8月15日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

第三届“讯飞杯”中文机器阅读理解评测报名开启（CMRC 2019）

第三届“讯飞杯”中文机器阅读理解评测报名开启（CMRC 2019）

哈工大SCIR

4+阅读 · 2019年5月27日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

命名实体识别从数据集到算法实现

命名实体识别从数据集到算法实现

专知

55+阅读 · 2018年6月28日

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

机器学习研究会

10+阅读 · 2018年3月1日

阿里获中文语法大赛 CGED冠军后，我们和领队科学家聊了聊中文语义识别

阿里获中文语法大赛 CGED冠军后，我们和领队科学家聊了聊中文语义识别

大数据文摘

7+阅读 · 2017年11月27日

XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization

XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization

Arxiv

3+阅读 · 2020年3月24日

A Baseline for Few-Shot Image Classification

Arxiv

7+阅读 · 2020年3月1日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

Sogou Machine Reading Comprehension Toolkit

Arxiv

8+阅读 · 2019年3月28日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Span Based Open Information Extraction

Arxiv

3+阅读 · 2019年3月1日

DAiSEE: Towards User Engagement Recognition in the Wild

Arxiv

5+阅读 · 2018年4月12日

Recurrent Segmentation for Variable Computational Budgets

Arxiv

6+阅读 · 2018年3月15日

Detecting and counting tiny faces

Arxiv

4+阅读 · 2018年1月19日

Big Data: Understanding Big Data

Arxiv

6+阅读 · 2016年1月15日

VIP会员

相关主题

自然语言理解

自然语言处理

相关VIP内容

【MIT-ICML2020】图神经网络的泛化与表示的局限

【MIT-ICML2020】图神经网络的泛化与表示的局限

专知会员服务

43+阅读 · 2020年6月23日

【微众银行】联邦学习白皮书_v2.0，48页pdf，

【微众银行】联邦学习白皮书_v2.0，48页pdf，

专知会员服务

170+阅读 · 2020年4月26日

面向司法案件的案情知识图谱自动构建

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日

CCKS 2019 知识图谱评测技术报告：实体、关系、事件及问答

专知会员服务

163+阅读 · 2020年3月11日

Capsule Networks，胶囊网络，57页ppt，布法罗大学

Capsule Networks，胶囊网络，57页ppt，布法罗大学

专知会员服务

69+阅读 · 2020年2月29日

【2020新书】数据科学:十大Python项目，247页pdf

【2020新书】数据科学:十大Python项目，247页pdf

专知会员服务

216+阅读 · 2020年2月21日

必读的10篇 ICML 2019【图神经网络（GNN）】相关论文和代码

必读的10篇 ICML 2019【图神经网络（GNN）】相关论文和代码

专知会员服务

66+阅读 · 2020年1月10日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

知识图谱更新技术研究及其应用，复旦大学硕士论文

知识图谱更新技术研究及其应用，复旦大学硕士论文

专知会员服务

105+阅读 · 2019年11月4日

中文知识图谱构建技术以及应用的综述

中文知识图谱构建技术以及应用的综述

专知会员服务

317+阅读 · 2019年10月19日

热门VIP内容

开通专知VIP会员享更多权益服务

大型语言模型遇上文本属性图：一种融合框架与应用的综述

人工智能赋能自主武器与人类控制第三部分：人类控制与系统操作员 | 35页

【博士论文】用于概率程序与生成模型的变分推断

军事指挥控制系统：2025年5种用途

相关资讯

评测报名 | 全国知识图谱与语义计算大会(CCKS 2020)技术评测任务发布

评测报名 | 全国知识图谱与语义计算大会(CCKS 2020)技术评测任务发布

开放知识图谱

144+阅读 · 2020年3月20日

评测 | 2020 年全国知识图谱与语义计算大会评测任务征集

评测 | 2020 年全国知识图谱与语义计算大会评测任务征集

开放知识图谱

34+阅读 · 2020年1月16日

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

机器之心

4+阅读 · 2019年10月23日

中文自然语言处理开放任务介绍、数据集、当前最佳结果分享

中文自然语言处理开放任务介绍、数据集、当前最佳结果分享

深度学习与NLP

14+阅读 · 2019年8月15日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

第三届“讯飞杯”中文机器阅读理解评测报名开启（CMRC 2019）

第三届“讯飞杯”中文机器阅读理解评测报名开启（CMRC 2019）

哈工大SCIR

4+阅读 · 2019年5月27日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

命名实体识别从数据集到算法实现

命名实体识别从数据集到算法实现

专知

55+阅读 · 2018年6月28日

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

机器学习研究会

10+阅读 · 2018年3月1日

阿里获中文语法大赛 CGED冠军后，我们和领队科学家聊了聊中文语义识别

阿里获中文语法大赛 CGED冠军后，我们和领队科学家聊了聊中文语义识别

大数据文摘

7+阅读 · 2017年11月27日

相关论文

XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization

XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization

Arxiv

3+阅读 · 2020年3月24日

A Baseline for Few-Shot Image Classification

Arxiv

7+阅读 · 2020年3月1日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

Sogou Machine Reading Comprehension Toolkit

Arxiv

8+阅读 · 2019年3月28日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Span Based Open Information Extraction

Arxiv

3+阅读 · 2019年3月1日

DAiSEE: Towards User Engagement Recognition in the Wild

Arxiv

5+阅读 · 2018年4月12日

Recurrent Segmentation for Variable Computational Budgets

Arxiv

6+阅读 · 2018年3月15日

Detecting and counting tiny faces

Arxiv

4+阅读 · 2018年1月19日

Big Data: Understanding Big Data

Arxiv

6+阅读 · 2016年1月15日

大家都在搜

国防科技创新

2025最新文献

NTU博士论文

蓝牙安全攻防

朱克爱德华兹家族

滴滴司机调度系统实践

微信扫码咨询专知VIP会员