NLP开源数据集汇总

2022 年 6 月 17 日 夕小瑶的卖萌屋

源 | 极市平台

本文汇总了几个NLP相关的开源数据集,均附有下载链接。

CASIA手写数据集

数据集地址:http://m6z.cn/6pFPtC

CASIA-HWDB-T:一个从中文手写数据库CASIA-HWDB收集的触摸字符数据库。所有接触的字符(或字符串)都用字符类别、接触点的位置以及字符串高度(LH)和平均笔划宽度(SW)等辅助值进行注释。

根据不同的语言类型,触摸字符串分为四个子集:2788 个全数字字符串(HWDB-T-allDigits)、328 个全字母字符串(HWDB-T-allLetters)、50157 个全中文字符串(HWDB-T -allChinese)和 3,196 个混合字符(HWDB-T-other)。

Twitter地理定位信息数据集

数据集地址:http://m6z.cn/5VFbms

训练集包含 115,886 个 Twitter 用户和来自用户的 3,844,612 个更新。用户的所有位置都在美国以城市级粒度进行自我标记。测试集包含 5,136 个 Twitter 用户和来自用户的 5,156,047 条推文。用户的所有位置都是从他们的智能手机以“UT:纬度,经度”的形式上传的。

印度新闻头条数据集

数据集地址:http://m6z.cn/5O90Vj

该新闻数据集是印度从 2001 年初到 2022 年第一季度的重要事件的持久历史档案,由印度记者实时记录。它包含印度时报发布的大约 360 万个事件。大部分数据集中在印度地方新闻,包括国家、城市和娱乐。由Rohit Kulkarni编写

专利短语数据集

数据集地址:http://m6z.cn/6i9CsN

该数据集是为美国专利短语匹配竞赛提供的。它通过提供context列中每个代码的含义来添加附加信息。

电影元数据

数据集地址:http://m6z.cn/6i9Cth

这些文件包含 TMDB 数据集中列出的超过 700,000 部电影的元数据。数据集每天更新以确保更新电影数据集。数据点包括演员、工作人员、情节关键词、预算、收入、海报、发布日期、语言、制作公司、国家、TMDB 投票计数和投票平均值、评论、推荐。

Twitter 情绪推文数据集

数据集地址:http://m6z.cn/5zMyu3

每行包含一条推文的文本和一个情绪标签。在训练集中,您将获得一个从推文 (selected_text) 中提取的单词或短语,它封装了所提供的情绪。

幸福畅销书评论数据集

数据集地址:http://m6z.cn/63boFl

自 2005 年以来,整体幸福感正在下降,而悲伤和愤怒等负面情绪却在上升。更糟糕的是,越来越多的年轻人患有精神疾病、成瘾及其后果。本数据集收集了排名前33名的关于幸福的书籍、评论和引用。

Olist电子商务公共数据集

数据集地址:http://m6z.cn/6aHBQk

这是在Olist Store下订单的巴西电子商务公共数据集。该数据集包含 2016 年至 2018 年在巴西多个市场进行的 10 万份订单的信息。它的功能允许从多个维度查看订单:从订单状态、价格、付款和货运绩效到客户位置、产品属性,最后是客户撰写的评论。这是真实的商业数据,已匿名,评论文本中对公司和合作伙伴的引用已替换为《权力的游戏》大家族的名称。

假新闻和真实新闻数据集

数据集地址:http://m6z.cn/5zMyx7

本数据集汇总了2015年-2018年间的一些真实的新闻和虚假的新闻,包含每篇新闻的主题类型、标题、正文和日期。

Top1000的Github存储库数据集

数据集地址:http://m6z.cn/5VFbZk

关于 Github 上的 1000 个最受欢迎的存储库的详尽数据。

后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

登录查看更多
1

相关内容

自然语言处理顶会NAACL2022最佳论文出炉!
专知会员服务
42+阅读 · 2022年6月30日
面向语义搜索的自然语言处理
专知会员服务
59+阅读 · 2021年12月18日
专知会员服务
18+阅读 · 2021年7月18日
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
23+阅读 · 2020年12月12日
专知会员服务
123+阅读 · 2020年9月8日
NLP基础任务:文本分类近年发展汇总,68页超详细解析
专知会员服务
57+阅读 · 2020年1月3日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
自动驾驶方向开源数据集资源汇总
极市平台
2+阅读 · 2022年7月22日
目标检测开源数据集汇总(二)
极市平台
0+阅读 · 2022年7月10日
人体姿态估计相关开源数据集介绍及汇总
极市平台
1+阅读 · 2022年3月27日
小目标检测相关开源数据集介绍及汇总
极市平台
1+阅读 · 2022年3月19日
人脸识别常用开源数据集大全
极市平台
0+阅读 · 2022年2月26日
15个目标检测开源数据集汇总
极市平台
0+阅读 · 2022年2月18日
21个深度学习开源数据集分类汇总
极市平台
0+阅读 · 2021年12月29日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年8月31日
Arxiv
12+阅读 · 2022年1月26日
Arxiv
11+阅读 · 2019年6月19日
Knowledge Representation Learning: A Quantitative Review
Arxiv
13+阅读 · 2018年1月20日
VIP会员
相关VIP内容
自然语言处理顶会NAACL2022最佳论文出炉!
专知会员服务
42+阅读 · 2022年6月30日
面向语义搜索的自然语言处理
专知会员服务
59+阅读 · 2021年12月18日
专知会员服务
18+阅读 · 2021年7月18日
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
23+阅读 · 2020年12月12日
专知会员服务
123+阅读 · 2020年9月8日
NLP基础任务:文本分类近年发展汇总,68页超详细解析
专知会员服务
57+阅读 · 2020年1月3日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
相关资讯
自动驾驶方向开源数据集资源汇总
极市平台
2+阅读 · 2022年7月22日
目标检测开源数据集汇总(二)
极市平台
0+阅读 · 2022年7月10日
人体姿态估计相关开源数据集介绍及汇总
极市平台
1+阅读 · 2022年3月27日
小目标检测相关开源数据集介绍及汇总
极市平台
1+阅读 · 2022年3月19日
人脸识别常用开源数据集大全
极市平台
0+阅读 · 2022年2月26日
15个目标检测开源数据集汇总
极市平台
0+阅读 · 2022年2月18日
21个深度学习开源数据集分类汇总
极市平台
0+阅读 · 2021年12月29日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员