史上最全《自然语言处理、知识图谱》相关语料大列表

会员服务 ·

史上最全《自然语言处理、知识图谱》相关语料大列表

2020 年 10 月 26 日 专知

1. NLP中文语料

1.10.1 人民日报&童话故事
1.10.2 CMRC2017
1.10.3 CMRC2018
1.10.4 CMRC2019
1.10.5 DRCD
1.10.6 C^3
1.10.7 ChiD
1.10.8 DuReader
1.9.1 580万百度知道社群问答
1.9.2 DuReader
1.9.3 细分领域知道问答数据集
1.9.4 社区问答数据集
1.8.1 LCQMC
1.8.2 ChineseSTS
1.8.3 ATEC蚂蚁金服语义相似度数据
1.7.1 携程网酒店评论数据
1.7.2 外卖评论数据
1.7.3 电商商品评论数据
1.7.4 微博情感数据（2类）
1.7.5 微博情感数据（4类）
1.7.6 电影评论评分数据
1.7.7 大众点评餐馆评论数据
1.7.8 Amazon商品评论数据
1.7.9 豆瓣电影评论数据
1.7.10 大众点评用户评论（2类）
1.7.11 京东用户评论数据
1.6.1 好大夫医疗对话数据集
1.6.2 中文医疗对话数据集
1.5.1 CLUEWSC2020
1.4.1 SiGHAN2005分词数据集
1.4.2 MSRA命名实体识别数据集
1.4.3 人民日报命名实体识别数据集
1.4.4 微博命名实体识别数据集
1.4.5 影视-音乐-书籍实体标注数据
1.4.6 BosonNLP NER数据
1.4.7 cluener 细粒度实体识别数据集
1.4.8 人民日报2014NER标注数据
1.4.9 1998年1月-6月人民日报标注语料
1.3.1 2018法研杯
1.3.2 今日头条中文新闻（短文本）分类数据集
1.3.3 清华新闻分类语料
1.3.4 SMP2017中文人机对话评测数据
1.3.5 中国新闻网新闻分类语料
1.3.6 凤凰网新闻分类语料
1.2.1 中国古代人物传记数据库(CBDB)
1.1.1 人民日报新闻数据
1.1.2 微信公众号语料库
1.1 生语料
1.2 结构化数据
1.3 文本分类数据集
1.4 序列标注数据集（分词、命名实体识别、词性标注等）
1.5 指代消解
1.6 对话
1.7 情感分析
1.8 语义相似度（文本蕴含）
1.9 问答
1.10 阅读理解

2. NLP外文语料

2.9.1 BigPatent
2.8.1 HotpotQA
2.8.2 SQuAD v2.0
2.7.1 MS MARCO
2.6.1 PAWS
2.6.2 DNLI
2.6.3 MultiNLI
2.6.4 XNLI
2.6.5 SNLI
2.6.6 Quora Question Pairs
2.5.1 Europarl
2.5.2 United Nations Parallel Corpus
2.5.3 News-Commentary
2.5.4 wikititles
2.5.5 Ted Talk
2.5.6 中英翻译数据集
2.4.1 DAWT
2.3.1 Twitter Chat Corpus
2.2.1 MovieTweetings
2.2.2 Amazon Fine Food Reviews
2.2.3 Amazon Reviews
2.2.4 Yelp Open Dataset
2.2.5 MovieLens
2.1.1 Fake News Corpus
2.1.2 AG News
2.1.3 ColBERT
2.1 文本分类数据集
2.2 情感分析
2.3 对话
2.4 序列标注数据集（分词、命名实体识别、词性标注等）
2.5 机器翻译
2.6 语义相似度（文本蕴含）
2.7 问答
2.8 阅读理解
2.9 文本摘要

3. 语言资源

3.2.1 百科词条名
3.2.2 360万中文词库（包含词性和词频）
3.2.3 谷歌书籍N-gram数据
3.1.1 百科实体
3.1.2 中国古代编年史CBDB实体
3.1 实体类
3.2 词典类

4. KG数据

4.1 百科三元组
4.2 Dbpedia
4.3 OpenKG

https://github.com/SimmerChan/corpus

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“FANG” 可以获取《NUS《图表示假新闻检测》》论文专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

近期必读的五篇 IJCAI 2020【图神经网络 (GNN)+NLP 】相关论文

专知会员服务

76+阅读 · 2020年8月18日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

自然语言处理顶会ACL2020放榜了，你的论文中了吗？因新冠将在线举办

专知会员服务

36+阅读 · 2020年4月5日