史上最全《自然语言处理、知识图谱》相关语料大列表

2020 年 10 月 26 日 专知
  • 1. NLP中文语料

    • 1.10.1 人民日报&童话故事

    • 1.10.2 CMRC2017

    • 1.10.3 CMRC2018

    • 1.10.4 CMRC2019

    • 1.10.5 DRCD

    • 1.10.6 C^3

    • 1.10.7 ChiD

    • 1.10.8 DuReader

    • 1.9.1 580万百度知道社群问答

    • 1.9.2 DuReader

    • 1.9.3 细分领域知道问答数据集

    • 1.9.4 社区问答数据集

    • 1.8.1 LCQMC

    • 1.8.2 ChineseSTS

    • 1.8.3 ATEC蚂蚁金服语义相似度数据

    • 1.7.1 携程网酒店评论数据

    • 1.7.2 外卖评论数据

    • 1.7.3 电商商品评论数据

    • 1.7.4 微博情感数据(2类)

    • 1.7.5 微博情感数据(4类)

    • 1.7.6 电影评论评分数据

    • 1.7.7 大众点评餐馆评论数据

    • 1.7.8 Amazon商品评论数据

    • 1.7.9 豆瓣电影评论数据

    • 1.7.10 大众点评用户评论(2类)

    • 1.7.11 京东用户评论数据

    • 1.6.1 好大夫医疗对话数据集

    • 1.6.2 中文医疗对话数据集

    • 1.5.1 CLUEWSC2020

    • 1.4.1 SiGHAN2005分词数据集

    • 1.4.2 MSRA命名实体识别数据集

    • 1.4.3 人民日报命名实体识别数据集

    • 1.4.4 微博命名实体识别数据集

    • 1.4.5 影视-音乐-书籍实体标注数据

    • 1.4.6 BosonNLP NER数据

    • 1.4.7 cluener 细粒度实体识别数据集

    • 1.4.8 人民日报2014NER标注数据

    • 1.4.9 1998年1月-6月人民日报标注语料

    • 1.3.1 2018法研杯

    • 1.3.2 今日头条中文新闻(短文本)分类数据集

    • 1.3.3 清华新闻分类语料

    • 1.3.4 SMP2017中文人机对话评测数据

    • 1.3.5 中国新闻网新闻分类语料

    • 1.3.6 凤凰网新闻分类语料

    • 1.2.1 中国古代人物传记数据库(CBDB)

    • 1.1.1 人民日报新闻数据

    • 1.1.2 微信公众号语料库

    • 1.1 生语料

    • 1.2 结构化数据

    • 1.3 文本分类数据集

    • 1.4 序列标注数据集(分词、命名实体识别、词性标注等)

    • 1.5 指代消解

    • 1.6 对话

    • 1.7 情感分析

    • 1.8 语义相似度(文本蕴含)

    • 1.9 问答

    • 1.10 阅读理解

  • 2. NLP外文语料

    • 2.9.1 BigPatent

    • 2.8.1 HotpotQA

    • 2.8.2 SQuAD v2.0

    • 2.7.1 MS MARCO

    • 2.6.1 PAWS

    • 2.6.2 DNLI

    • 2.6.3 MultiNLI

    • 2.6.4 XNLI

    • 2.6.5 SNLI

    • 2.6.6 Quora Question Pairs

    • 2.5.1 Europarl

    • 2.5.2 United Nations Parallel Corpus

    • 2.5.3 News-Commentary

    • 2.5.4 wikititles

    • 2.5.5 Ted Talk

    • 2.5.6 中英翻译数据集

    • 2.4.1 DAWT

    • 2.3.1 Twitter Chat Corpus

    • 2.2.1 MovieTweetings

    • 2.2.2 Amazon Fine Food Reviews

    • 2.2.3 Amazon Reviews

    • 2.2.4 Yelp Open Dataset

    • 2.2.5 MovieLens

    • 2.1.1 Fake News Corpus

    • 2.1.2 AG News

    • 2.1.3 ColBERT

    • 2.1 文本分类数据集

    • 2.2 情感分析

    • 2.3 对话

    • 2.4 序列标注数据集(分词、命名实体识别、词性标注等)

    • 2.5 机器翻译

    • 2.6 语义相似度(文本蕴含)

    • 2.7 问答

    • 2.8 阅读理解

    • 2.9 文本摘要

  • 3. 语言资源

    • 3.2.1 百科词条名

    • 3.2.2 360万中文词库(包含词性和词频)

    • 3.2.3 谷歌书籍N-gram数据

    • 3.1.1 百科实体

    • 3.1.2 中国古代编年史CBDB实体

    • 3.1 实体类

    • 3.2 词典类

  • 4. KG数据

    • 4.1 百科三元组

    • 4.2 Dbpedia

    • 4.3 OpenKG

https://github.com/SimmerChan/corpus


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“FANG” 可以获取《NUS《图表示假新闻检测》》论文专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
5

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
专知会员服务
191+阅读 · 2020年10月14日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
209+阅读 · 2020年4月26日
专知会员服务
153+阅读 · 2020年4月21日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
32+阅读 · 2019年6月21日
中文自然语言处理相关资料集合指南
专知
18+阅读 · 2019年3月10日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
深度学习NLP相关资源大列表
机器学习研究会
3+阅读 · 2017年9月17日
Selfish Sparse RNN Training
Arxiv
0+阅读 · 2021年1月28日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
专知会员服务
191+阅读 · 2020年10月14日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
209+阅读 · 2020年4月26日
专知会员服务
153+阅读 · 2020年4月21日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
相关资讯
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
32+阅读 · 2019年6月21日
中文自然语言处理相关资料集合指南
专知
18+阅读 · 2019年3月10日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
深度学习NLP相关资源大列表
机器学习研究会
3+阅读 · 2017年9月17日
Top
微信扫码咨询专知VIP会员