CLUE发布第一个原生中文自然语言推理数据集

2020 年 10 月 18 日 AINLP

OCNLI(Original Chinese Natural Language Inference),原生/原创中文自然语言推理数据集,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。

OCNLI包含5万余训练数据,3千验证数据及3千测试数据。我们将提供训练与验证集的数据及标签。测试数据仅提供数据,不提供标签。OCNLI为中文语言理解基准测评(CLUE benchmark)的一部分。

数据集下载链接:https://github.com/CLUEbenchmark/OCNLI

Leaderboard提交链接:https://www.cluebenchmarks.com/nli.html

论文:Hai Hu, Kyle Richardson, Liang Xu, Lu Li, Sandra Kübler, and Larry Moss. 2020. OCNLI: Original Chinese Natural Language Inference. In Findings of EMNLP.

论文链接:https://arxiv.org/abs/2010.05444

近年来,自然语言推理(Natural Language Inference,NLI)逐步成为自然语言理解中的核心任务。Dagan et al 2005认为自然语言推理与paraphrase, summarization, information retrieval, QA等多种重要任务紧密相连,可以作为综合性任务来测试模型对语义理解的掌握。而NLI的数据作用远不止于推理任务本身,它也可以用来构造sentence embeddings (Conneau et al 2017), 进行intermediate-task training (Bowman et al 2020), 帮助问答任务 (Trivedi et al 2019),模型探测 (Richardson et al 2020),等等。

英语数据集如SICK, SNLI, MNLI, SciTail, alphaNLI, ANLI等层出不穷,然而中文几乎没有这方面的大型数据集。唯一例外可能要算将MNLI翻译成多种语言(包括中文)的XNLI数据集了。但是翻译的数据集质量堪忧,也缺少中文语境和中国文化背景下的推理。因此,我们参考并改进了MNLI的数据收集方法,收集建立了原生(原创)中文自然语言推理数据集,即OCNLI。

自然语言推理任务可以概括为,判断“前提”(Premise)与“假设”(Hypothesis)的“推理关系”(Inference relation)。如:

前提(Premise)

推理关系

Inference relation)

假设(Hypothesis)

和吕鸿宾共事几十年的村会计杨进躬身进屋,小心翼翼推出老模范那辆50年代买的自行车

entailment

蕴含

E1: 杨进与吕鸿宾共事的时间非常久

E2: 杨进是村会计

neutral

未知

N1: 吕鸿宾和杨进的关系很好

N2: 吕鸿宾曾被评为模范

contradiction

矛盾

C1: 自行车的款式非常新

C2: 故事发生的地点为城里

(该例选自OCNLI)

也就是说,在前提为真的情况下,E1与E2也为真,或者说可以从前提通过推理得出E1和E2。同时,在前提为真的情况下,我们无法得知N1与N2是否也为真,但是可以得出C1和C2是(几乎)不可能成立的。这就是自然语言推理任务。

OCNLI的特点:

- OCNLI改进了SNLI、MNLI数据收集和标注方法,使数据难度更大,对现有模型更有挑战性。目前(2020年10月)人类测评得分比模型最高分高出12%。同时,验证集和测试集的数据分为easy, medium, hard三个难度。

- OCNLI的前提(premise)选自5种不同的文体:政府公文、新闻、文学、电视谈话节目、电话录音。

- 与SNLI、MNLI类似,我们选取了部分数据进行二次标注,以确保标签的准确性。所有验证和测试数据的标签均为3/5多数投票决定,不合格的数据点标签为"-",实验中应将这些数据排除。

- 为了保证数据质量,我们的标注人员均为语言相关专业的本科生。OCNLI的完成离不开所有参与标注同学的辛勤努力,我们在此表示感谢!

参考文献:

- Hai Hu, Kyle Richardson, Liang Xu, Lu Li, Sandra Kübler, and Larry Moss. 2020. OCNLI: Original Chinese Natural Language Inference. In Findings of EMNLP.

- Ido Dagan, Oren Glickman, and Bernardo Magnini. 2005. The PASCAL Recognizing Textual Entailment Challenge. In Proceedings of the PASCAL Challenges Workshop on Recognizing Textual Entailment.

- Alexis Conneau, Douwe Kiela, Holger Schwenk, Loı̈c Barrault, and Antoine Bordes. 2017. Supervised learning of universal sentence representations from natural language inference data. In Proceedings of EMNLP.

- Samuel R Bowman, Jennimaria Palomaki, Livio Baldini Soares, and Emily Pitler. 2020. Collecting entailment data for pretraining: New protocols and negative results. arXiv preprint arXiv:2004.11997.

- Harsh Trivedi, Heeyoung Kwon, Tushar Khot, Ashish Sabharwal, and Niranjan Balasubramanian. 2019. Repurposing entailment for multi-hop question answering Tasks. Proceedings of NAACL.

- Kyle Richardson, Hai Hu, Lawrence S Moss, and Ashish Sabharwal. 2020. Probing Natural Language Inference Models through Semantic Fragments. In Proceedings of AAAI.


由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方"AINLP",进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

欢迎加入预训练模型交流群
进群请添加AINLP小助手微信 AINLPer(id: ainlper),备注预训练模型

推荐阅读

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)

从数据到模型,你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


阅读至此了,分享、点赞、在看三选一吧🙏

登录查看更多
6

相关内容

【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
哈工大讯飞联合实验室发布中文XLNet预训练模型
哈工大SCIR
13+阅读 · 2019年8月20日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
8+阅读 · 2019年3月21日
Arxiv
4+阅读 · 2019年2月18日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
VIP会员
相关VIP内容
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Top
微信扫码咨询专知VIP会员