成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
10大类、142条数据源,中文NLP数据集线上搜索开放
2020 年 3 月 2 日
机器之心
机器之心报道
项目作者:
CLUE benchmark
参与:思、杜伟
有了这个开源项目,再也不用担心找不到好用的中文 NLP 数据集,142 条数据集,总有适合你的那一款。
中文 NLP 数据集搜索:
https://www.cluebenchmarks.com/dataSet_search.html
在学习 NLP 的这条不归路上,我们总会发现大多数先进算法与优质示例代码都是用英文数据集。
而当我们满怀希望地把模型迁移到中文世界时,缺少公开的优质数据集简直就是天堑。
比如说最简单的语言模型与词嵌入模型,只需要一段段自然的中文文本就行了,然而实际上我们会发现好用的公开大型语料真的很少。
我们需要在 GitHub 等平台上找收集中文 NLP 数据集的各种项目,再根据需求进行选择。
值得注意的是,很多国内中文数据集已经非常老了,它们的使用会比较麻烦,这时候就需要我们自行判断与试错了。
不过在本文中,我们将介绍一项新的中文 NLP 数据搜索项目,
它可能是目前最全的中文 NLP 数据集信息收集项目
。
该项目收集了一百多条中文 NLP 数据信息,并以搜索的形式展示结果。
我们只要键入关键词,或者数据集所属的领域等信息,就能找到对应的数据集。
每一条搜索结果都会展示数据集的基本信息、访问链接等关键信息,能帮助我们快速筛选数据集。
因为每一个领域都能找到非常多的同类数据集,因此这些简述非常有意义。
如果读者想看看到底有哪些数据集,可以直接查看该搜索项目的 GitHub 地址,所有数据集的信息都在上面。
这可能是最全的中文 NLP 数据集合
本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。
具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。
项目地址:
https://github.com/CLUEbenchmark/CLUEDatasetSearch
本项目中文 NLP 数据集分类。
但由于整个项目包含的数据集种类很多,机器之心只对其中的情感分析和文本分类数据集进行以下简要介绍。
情感分析
作为自然语言处理(NLP)的一种常见应用,情感分析特别适用于以提取文本情感内容为目的的分类方法中。
本项目中介绍了 11 个情感分析数据集来源
,其中包括 NLPCC 2013/2014、Weibo Emotions Corpus、之江杯电商评论观点挖掘大赛以及 2019 搜狐校园算法大赛数据集。
项目中部分情感分析中文数据集详情。
文本分类
作为自然语言处理中最常用和最基础的应用,文本分类方面的数据集已经有很多。
本项目中介绍了 19 个文本分类数据集来源,其中包括今日头条中文新闻(文本)分类、THUCNews 中文文本分类、2017 知乎看山杯机器学习挑战赛 以及中科大新闻分类语料库等。
项目中部分文本分类数据集详情。
最后,开发者也可以上传数据集信息贡献自己的力量,上传 5 个(含)以上数据集信息即可在审核通过后成为本项目的贡献者。
目前似乎 142 个数据集已经很全了,但对于更多 NLP 子领域任务,还需要大家共同维护。
本
文为机器之心报道,
转载请联系本公众号获得授权
。
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):
hr@jiqizhixin.com
投稿或寻求报道:content
@jiqizhixin.com
广告 & 商务合作:
bd@jiqizhixin.com
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
数据集
关注
87
数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。 Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
近期必读五篇顶会 ACL 2020【知识图谱表示学习 (KGR) 】相关论文
专知会员服务
85+阅读 · 2020年6月16日
【2020最新干货综述】 基于知识图谱嵌入的链接预测综述, 43页pdf
专知会员服务
167+阅读 · 2020年5月24日
哈工大最新综述,基于文档的对话系统,30页pdf跟踪最新领域前沿
专知会员服务
91+阅读 · 2020年5月8日
综述:NLP中的深度学习优势,附21页论文下载
专知会员服务
104+阅读 · 2020年3月12日
Video Description视频描述综述论文-方法、数据集和评估指标,UWA
专知会员服务
39+阅读 · 2020年3月5日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
97+阅读 · 2019年12月23日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
44+阅读 · 2019年11月20日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
231+阅读 · 2019年10月12日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
80+阅读 · 2019年10月12日
知识图谱本体结构构建论文合集
专知会员服务
107+阅读 · 2019年10月9日
史上最大规模:这有一份1.4亿的中文开源知识图谱
机器之心
25+阅读 · 2019年10月17日
推荐两份NLP读书笔记和一份NLTK书籍代码中文注释版
AINLP
14+阅读 · 2019年9月22日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
优质中文NLP资源集合,做项目一定用得到!
数据派THU
18+阅读 · 2019年3月3日
想要训练中文NLP模型却苦于没数据?是时候支持开源中文了
机器之心
7+阅读 · 2019年2月15日
GitHub出现一个大型中文NLP资源,宣称要放出亿级语料库
量子位
26+阅读 · 2019年2月14日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
NLP Chinese Corpus项目:大规模中文自然语言处理语料
AINLP
13+阅读 · 2019年2月11日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
自然语言处理数据集免费资源开放(附学习资料)
数据派THU
16+阅读 · 2017年10月2日
Zero-Resource Cross-Lingual Named Entity Recognition
Arxiv
5+阅读 · 2019年11月22日
Adversarial NLI: A New Benchmark for Natural Language Understanding
Arxiv
4+阅读 · 2019年10月31日
OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge
Arxiv
9+阅读 · 2019年9月4日
iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images
Arxiv
9+阅读 · 2019年8月28日
Zero-Shot Entity Linking by Reading Entity Descriptions
Arxiv
6+阅读 · 2019年6月18日
Commonsense Reasoning for Natural Language Understanding: A Survey of Benchmarks, Resources, and Approaches
Arxiv
16+阅读 · 2019年4月2日
DARTS: Differentiable Architecture Search
Arxiv
3+阅读 · 2018年6月24日
Leveraging Unlabeled Data for Crowd Counting by Learning to Rank
Arxiv
6+阅读 · 2018年3月8日
PEYMA: A Tagged Corpus for Persian Named Entities
Arxiv
5+阅读 · 2018年1月30日
Long-Term Visual Object Tracking Benchmark
Arxiv
7+阅读 · 2017年12月28日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
数据集
NLP
搜索
CLUE
情感分析
文本分类
相关VIP内容
近期必读五篇顶会 ACL 2020【知识图谱表示学习 (KGR) 】相关论文
专知会员服务
85+阅读 · 2020年6月16日
【2020最新干货综述】 基于知识图谱嵌入的链接预测综述, 43页pdf
专知会员服务
167+阅读 · 2020年5月24日
哈工大最新综述,基于文档的对话系统,30页pdf跟踪最新领域前沿
专知会员服务
91+阅读 · 2020年5月8日
综述:NLP中的深度学习优势,附21页论文下载
专知会员服务
104+阅读 · 2020年3月12日
Video Description视频描述综述论文-方法、数据集和评估指标,UWA
专知会员服务
39+阅读 · 2020年3月5日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
97+阅读 · 2019年12月23日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
44+阅读 · 2019年11月20日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
231+阅读 · 2019年10月12日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
80+阅读 · 2019年10月12日
知识图谱本体结构构建论文合集
专知会员服务
107+阅读 · 2019年10月9日
热门VIP内容
开通专知VIP会员 享更多权益服务
电波作战向多域融合方向发展
DeepSeek R1本地部署,小白教程来了!
《核风险:认知与途径》最新32页报告
《评估武装部队的频谱需求,优化国防频带使用》218页书籍
相关资讯
史上最大规模:这有一份1.4亿的中文开源知识图谱
机器之心
25+阅读 · 2019年10月17日
推荐两份NLP读书笔记和一份NLTK书籍代码中文注释版
AINLP
14+阅读 · 2019年9月22日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
优质中文NLP资源集合,做项目一定用得到!
数据派THU
18+阅读 · 2019年3月3日
想要训练中文NLP模型却苦于没数据?是时候支持开源中文了
机器之心
7+阅读 · 2019年2月15日
GitHub出现一个大型中文NLP资源,宣称要放出亿级语料库
量子位
26+阅读 · 2019年2月14日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
NLP Chinese Corpus项目:大规模中文自然语言处理语料
AINLP
13+阅读 · 2019年2月11日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
自然语言处理数据集免费资源开放(附学习资料)
数据派THU
16+阅读 · 2017年10月2日
相关论文
Zero-Resource Cross-Lingual Named Entity Recognition
Arxiv
5+阅读 · 2019年11月22日
Adversarial NLI: A New Benchmark for Natural Language Understanding
Arxiv
4+阅读 · 2019年10月31日
OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge
Arxiv
9+阅读 · 2019年9月4日
iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images
Arxiv
9+阅读 · 2019年8月28日
Zero-Shot Entity Linking by Reading Entity Descriptions
Arxiv
6+阅读 · 2019年6月18日
Commonsense Reasoning for Natural Language Understanding: A Survey of Benchmarks, Resources, and Approaches
Arxiv
16+阅读 · 2019年4月2日
DARTS: Differentiable Architecture Search
Arxiv
3+阅读 · 2018年6月24日
Leveraging Unlabeled Data for Crowd Counting by Learning to Rank
Arxiv
6+阅读 · 2018年3月8日
PEYMA: A Tagged Corpus for Persian Named Entities
Arxiv
5+阅读 · 2018年1月30日
Long-Term Visual Object Tracking Benchmark
Arxiv
7+阅读 · 2017年12月28日
大家都在搜
锂电池
量化交易
大型语言模型
基础模型
研究报告
自主可控
机器狗
中国人民大学
mxnet
“跨越险阻2018”挑战赛中
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top