源 | 极市平台
本文汇总了几个NLP相关的开源数据集,均附有下载链接。
数据集地址:http://m6z.cn/6pFPtC
CASIA-HWDB-T:一个从中文手写数据库CASIA-HWDB收集的触摸字符数据库。所有接触的字符(或字符串)都用字符类别、接触点的位置以及字符串高度(LH)和平均笔划宽度(SW)等辅助值进行注释。
根据不同的语言类型,触摸字符串分为四个子集:2788 个全数字字符串(HWDB-T-allDigits)、328 个全字母字符串(HWDB-T-allLetters)、50157 个全中文字符串(HWDB-T -allChinese)和 3,196 个混合字符(HWDB-T-other)。
数据集地址:http://m6z.cn/5VFbms
训练集包含 115,886 个 Twitter 用户和来自用户的 3,844,612 个更新。用户的所有位置都在美国以城市级粒度进行自我标记。测试集包含 5,136 个 Twitter 用户和来自用户的 5,156,047 条推文。用户的所有位置都是从他们的智能手机以“UT:纬度,经度”的形式上传的。
数据集地址:http://m6z.cn/5O90Vj
该新闻数据集是印度从 2001 年初到 2022 年第一季度的重要事件的持久历史档案,由印度记者实时记录。它包含印度时报发布的大约 360 万个事件。大部分数据集中在印度地方新闻,包括国家、城市和娱乐。由Rohit Kulkarni编写
数据集地址:http://m6z.cn/6i9CsN
该数据集是为美国专利短语匹配竞赛提供的。它通过提供context列中每个代码的含义来添加附加信息。
数据集地址:http://m6z.cn/6i9Cth
这些文件包含 TMDB 数据集中列出的超过 700,000 部电影的元数据。数据集每天更新以确保更新电影数据集。数据点包括演员、工作人员、情节关键词、预算、收入、海报、发布日期、语言、制作公司、国家、TMDB 投票计数和投票平均值、评论、推荐。
数据集地址:http://m6z.cn/5zMyu3
每行包含一条推文的文本和一个情绪标签。在训练集中,您将获得一个从推文 (selected_text) 中提取的单词或短语,它封装了所提供的情绪。
数据集地址:http://m6z.cn/63boFl
自 2005 年以来,整体幸福感正在下降,而悲伤和愤怒等负面情绪却在上升。更糟糕的是,越来越多的年轻人患有精神疾病、成瘾及其后果。本数据集收集了排名前33名的关于幸福的书籍、评论和引用。
数据集地址:http://m6z.cn/6aHBQk
这是在Olist Store下订单的巴西电子商务公共数据集。该数据集包含 2016 年至 2018 年在巴西多个市场进行的 10 万份订单的信息。它的功能允许从多个维度查看订单:从订单状态、价格、付款和货运绩效到客户位置、产品属性,最后是客户撰写的评论。这是真实的商业数据,已匿名,评论文本中对公司和合作伙伴的引用已替换为《权力的游戏》大家族的名称。
数据集地址:http://m6z.cn/5zMyx7
本数据集汇总了2015年-2018年间的一些真实的新闻和虚假的新闻,包含每篇新闻的主题类型、标题、正文和日期。
数据集地址:http://m6z.cn/5VFbZk
关于 Github 上的 1000 个最受欢迎的存储库的详尽数据。
后台回复关键词【入群】
加入卖萌屋NLP、CV、搜推广与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各大顶会论文集!