1. NLP中文语料
1.10.1 人民日报&童话故事
1.10.2 CMRC2017
1.10.3 CMRC2018
1.10.4 CMRC2019
1.10.5 DRCD
1.10.6 C^3
1.10.7 ChiD
1.10.8 DuReader
1.9.1 580万百度知道社群问答
1.9.2 DuReader
1.9.3 细分领域知道问答数据集
1.9.4 社区问答数据集
1.8.1 LCQMC
1.8.2 ChineseSTS
1.8.3 ATEC蚂蚁金服语义相似度数据
1.7.1 携程网酒店评论数据
1.7.2 外卖评论数据
1.7.3 电商商品评论数据
1.7.4 微博情感数据(2类)
1.7.5 微博情感数据(4类)
1.7.6 电影评论评分数据
1.7.7 大众点评餐馆评论数据
1.7.8 Amazon商品评论数据
1.7.9 豆瓣电影评论数据
1.7.10 大众点评用户评论(2类)
1.7.11 京东用户评论数据
1.6.1 好大夫医疗对话数据集
1.6.2 中文医疗对话数据集
1.5.1 CLUEWSC2020
1.4.1 SiGHAN2005分词数据集
1.4.2 MSRA命名实体识别数据集
1.4.3 人民日报命名实体识别数据集
1.4.4 微博命名实体识别数据集
1.4.5 影视-音乐-书籍实体标注数据
1.4.6 BosonNLP NER数据
1.4.7 cluener 细粒度实体识别数据集
1.4.8 人民日报2014NER标注数据
1.4.9 1998年1月-6月人民日报标注语料
1.3.1 2018法研杯
1.3.2 今日头条中文新闻(短文本)分类数据集
1.3.3 清华新闻分类语料
1.3.4 SMP2017中文人机对话评测数据
1.3.5 中国新闻网新闻分类语料
1.3.6 凤凰网新闻分类语料
1.2.1 中国古代人物传记数据库(CBDB)
1.1.1 人民日报新闻数据
1.1.2 微信公众号语料库
1.1 生语料
1.2 结构化数据
1.3 文本分类数据集
1.4 序列标注数据集(分词、命名实体识别、词性标注等)
1.5 指代消解
1.6 对话
1.7 情感分析
1.8 语义相似度(文本蕴含)
1.9 问答
1.10 阅读理解
2. NLP外文语料
2.9.1 BigPatent
2.8.1 HotpotQA
2.8.2 SQuAD v2.0
2.7.1 MS MARCO
2.6.1 PAWS
2.6.2 DNLI
2.6.3 MultiNLI
2.6.4 XNLI
2.6.5 SNLI
2.6.6 Quora Question Pairs
2.5.1 Europarl
2.5.2 United Nations Parallel Corpus
2.5.3 News-Commentary
2.5.4 wikititles
2.5.5 Ted Talk
2.5.6 中英翻译数据集
2.4.1 DAWT
2.3.1 Twitter Chat Corpus
2.2.1 MovieTweetings
2.2.2 Amazon Fine Food Reviews
2.2.3 Amazon Reviews
2.2.4 Yelp Open Dataset
2.2.5 MovieLens
2.1.1 Fake News Corpus
2.1.2 AG News
2.1.3 ColBERT
2.1 文本分类数据集
2.2 情感分析
2.3 对话
2.4 序列标注数据集(分词、命名实体识别、词性标注等)
2.5 机器翻译
2.6 语义相似度(文本蕴含)
2.7 问答
2.8 阅读理解
2.9 文本摘要
3. 语言资源
3.2.1 百科词条名
3.2.2 360万中文词库(包含词性和词频)
3.2.3 谷歌书籍N-gram数据
3.1.1 百科实体
3.1.2 中国古代编年史CBDB实体
3.1 实体类
3.2 词典类
4. KG数据
4.1 百科三元组
4.2 Dbpedia
4.3 OpenKG
https://github.com/SimmerChan/corpus
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“FANG” 可以获取《NUS《图表示假新闻检测》》论文专知下载链接索引