CLUE发布第一个原生中文自然语言推理数据集

2020 年 10 月 18 日 AINLP

OCNLI（Original Chinese Natural Language Inference），原生/原创中文自然语言推理数据集，是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。

OCNLI包含5万余训练数据，3千验证数据及3千测试数据。我们将提供训练与验证集的数据及标签。测试数据仅提供数据，不提供标签。OCNLI为中文语言理解基准测评（CLUE benchmark）的一部分。

数据集下载链接：https://github.com/CLUEbenchmark/OCNLI

Leaderboard提交链接：https://www.cluebenchmarks.com/nli.html

论文：Hai Hu, Kyle Richardson, Liang Xu, Lu Li, Sandra Kübler, and Larry Moss. 2020. OCNLI: Original Chinese Natural Language Inference. In Findings of EMNLP.

论文链接：https://arxiv.org/abs/2010.05444

近年来，自然语言推理（Natural Language Inference，NLI）逐步成为自然语言理解中的核心任务。Dagan et al 2005认为自然语言推理与paraphrase, summarization, information retrieval, QA等多种重要任务紧密相连，可以作为综合性任务来测试模型对语义理解的掌握。而NLI的数据作用远不止于推理任务本身，它也可以用来构造sentence embeddings (Conneau et al 2017), 进行intermediate-task training (Bowman et al 2020), 帮助问答任务 (Trivedi et al 2019)，模型探测 (Richardson et al 2020)，等等。

英语数据集如SICK, SNLI, MNLI, SciTail, alphaNLI, ANLI等层出不穷，然而中文几乎没有这方面的大型数据集。唯一例外可能要算将MNLI翻译成多种语言（包括中文）的XNLI数据集了。但是翻译的数据集质量堪忧，也缺少中文语境和中国文化背景下的推理。因此，我们参考并改进了MNLI的数据收集方法，收集建立了原生（原创）中文自然语言推理数据集，即OCNLI。

自然语言推理任务可以概括为，判断“前提”（Premise）与“假设”（Hypothesis）的“推理关系”（Inference relation）。如：

前提（Premise）

推理关系

（Inference relation）

假设（Hypothesis）

和吕鸿宾共事几十年的村会计杨进躬身进屋,小心翼翼推出老模范那辆50年代买的自行车

entailment

蕴含

E1: 杨进与吕鸿宾共事的时间非常久

E2: 杨进是村会计

neutral

未知

N1: 吕鸿宾和杨进的关系很好

N2: 吕鸿宾曾被评为模范

contradiction

矛盾

C1: 自行车的款式非常新

C2: 故事发生的地点为城里

（该例选自OCNLI）

也就是说，在前提为真的情况下，E1与E2也为真，或者说可以从前提通过推理得出E1和E2。同时，在前提为真的情况下，我们无法得知N1与N2是否也为真，但是可以得出C1和C2是（几乎）不可能成立的。这就是自然语言推理任务。

OCNLI的特点：

- OCNLI改进了SNLI、MNLI数据收集和标注方法，使数据难度更大，对现有模型更有挑战性。目前(2020年10月)人类测评得分比模型最高分高出12%。同时，验证集和测试集的数据分为easy, medium, hard三个难度。

- OCNLI的前提(premise)选自5种不同的文体：政府公文、新闻、文学、电视谈话节目、电话录音。

- 与SNLI、MNLI类似，我们选取了部分数据进行二次标注，以确保标签的准确性。所有验证和测试数据的标签均为3/5多数投票决定，不合格的数据点标签为"-"，实验中应将这些数据排除。

- 为了保证数据质量，我们的标注人员均为语言相关专业的本科生。OCNLI的完成离不开所有参与标注同学的辛勤努力，我们在此表示感谢！

参考文献：

- Hai Hu, Kyle Richardson, Liang Xu, Lu Li, Sandra Kübler, and Larry Moss. 2020. OCNLI: Original Chinese Natural Language Inference. In Findings of EMNLP.

- Ido Dagan, Oren Glickman, and Bernardo Magnini. 2005. The PASCAL Recognizing Textual Entailment Challenge. In Proceedings of the PASCAL Challenges Workshop on Recognizing Textual Entailment.

- Alexis Conneau, Douwe Kiela, Holger Schwenk, Loı̈c Barrault, and Antoine Bordes. 2017. Supervised learning of universal sentence representations from natural language inference data. In Proceedings of EMNLP.

- Samuel R Bowman, Jennimaria Palomaki, Livio Baldini Soares, and Emily Pitler. 2020. Collecting entailment data for pretraining: New protocols and negative results. arXiv preprint arXiv:2004.11997.

- Harsh Trivedi, Heeyoung Kwon, Tushar Khot, Ashish Sabharwal, and Niranjan Balasubramanian. 2019. Repurposing entailment for multi-hop question answering Tasks. Proceedings of NAACL.

- Kyle Richardson, Hai Hu, Lawrence S Moss, and Ashish Sabharwal. 2020. Probing Natural Language Inference Models through Semantic Fragments. In Proceedings of AAAI.

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方"AINLP"，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。

欢迎加入预训练模型交流群

进群请添加AINLP小助手微信 AINLPer（id: ainlper)，备注预训练模型

推荐阅读

这个NLP工具，玩得根本停不下来

征稿启示| 200元稿费+5000DBC（价值20个小时GPU算力）

完结撒花！李宏毅老师深度学习与人类语言处理课程视频及课件（附下载）

从数据到模型，你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus，一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具（NER）哪家强？

学自然语言处理，其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLPer(id：ainlper)，备注工作/研究方向+加群目的。

阅读至此了，分享、点赞、在看三选一吧🙏

登录查看更多