别找了,送你 20 个文本数据集

2019 年 5 月 17 日 机器学习算法与Python学习


源 / DataCastle数据城堡

中科大自然语言处理与信息检索共享平台


http://www.nlpir.org/?action-category-catid-28



搜狗实验室


搜狗实验室提供了一些高质量的中文文本数据集,但时间比较早,多为2012年以前的数据。


https://www.sogou.com/labs/resource/list_pingce.php



中文文本分类数据集THUCNews


THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,划分出 14 个候选分类。


http://thuctc.thunlp.org/#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86THUCNews



中文完形填空数据集


https://github.com/ymcui/Chinese-RC-Dataset



清华大学开放中文词库


http://thuocl.thunlp.org/



中华古诗词数据库


最全中华古诗词数据集,唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。


https://github.com/chinese-poetry/chinese-poetry



上百种预训练中文词向量


https://github.com/Embedding/Chinese-Word-Vectors



《口袋妖怪》跨语种命名对照数据集


任天堂游戏《口袋妖怪》中所有小精灵名字的德、英、法、日、韩、中6种语言对照,中文包含繁简体两种格式。


https://pokewiki.de/index.php?title=Pok%C3%A9mon-Liste



中国宗教用户关键词列表


https://www.dcjingsai.com/common/share/73.html



1998年《人民日报》词性标注库


https://pan.baidu.com/s/1gd6mslt



中文突发事件语料库


https://github.com/shijiebei2009/CEC-Corpus



中国股市爬取信息数据集


https://github.com/startprogress/China_stock_announcement



中文语料小数据


包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。


https://github.com/crownpku/Small-Chinese-Corpus



Tushare财经数据接口


TuShare是一个免费、开源的python财经数据接口包。


http://tushare.org/



保险行业语料库


https://github.com/Samurais/insuranceqa-corpus-zh



中文人名语料库


包含中文常见人名、中文古代人名、中文翻译人名、中文姓氏、中文称谓、中文成语等数据。


https://github.com/wainshine/Chinese-Names-Corpus



中文简称数据集


https://github.com/zhangyics/Chinese-abbreviation-dataset



汉字拆字字典


https://github.com/kfcd/chaizi



中文实体情感知识库


刻画人们如何描述某个实体,包含新闻、旅游、餐饮,共计30万对。


https://github.com/rainarch/SentiBridge



中文对话情感分析数据集


https://github.com/z17176/Chinese_conversation_sentiment


推荐阅读

再次重申 5 个Python 的坏习惯

全军覆没!麻省理工零录取中国学生,斯坦福取消中国大陆面试! 这是怎么了?

教你用Python感知女朋友的情绪变化!

喜欢就点击“在看”吧!
登录查看更多
67

相关内容

【ACL2020】利用模拟退火实现无监督复述
专知会员服务
13+阅读 · 2020年5月26日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
学习自然语言处理路线图
专知会员服务
137+阅读 · 2019年9月24日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
33+阅读 · 2019年6月21日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
命名实体识别从数据集到算法实现
专知
55+阅读 · 2018年6月28日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
干货 | 情感分析语料库
机器学习算法与Python学习
69+阅读 · 2017年7月3日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年1月30日
Arxiv
7+阅读 · 2017年12月28日
VIP会员
相关资讯
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
33+阅读 · 2019年6月21日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
命名实体识别从数据集到算法实现
专知
55+阅读 · 2018年6月28日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
干货 | 情感分析语料库
机器学习算法与Python学习
69+阅读 · 2017年7月3日
Top
微信扫码咨询专知VIP会员