数据在人工智能中占据着非常重要的地位,一个高质量的数据集往往能够提高模型训练的质量和预测的准确率。
在算法工程师的工作中,数据查找处理覆盖了一大片灰色时光,占据正常工作时间80%以上,毕竟一个好的数据集是可遇不可求的。七妹给大家整理了近百个国内外经典的开源数据集,包含了NLP、图像分割、图像分类、推荐系统、金融、交通等方向。如果点赞和点在看的人数较多,后续七妹会继续整理资料并分享给大家。
1、DEAPdataset:使用脑电图、生理和视频信号进行情绪分析的数据集。
2、MyPersonalityDataset:myPersonality是一个很受欢迎的Facebook应用程序,它允许用户进行真实的心理测试,并允许我们(在征得同意的情况下)记录他们的心理和Facebook资料。目前,我们的数据库包含超过600万个测试结果,以及超过400万个Facebook个人简介。
3、Bibsonomy:社交书签系统中的标签推荐。
4、Delicious:plista新闻推荐数据集,美味可口。
5、Movielens:稳定的基准数据集。2000万个评分和46.5万个标签应用程序被13.8万用户应用于2.7万部电影。包括标签基因组数据,1100个标签的1200万个相关性得分。
6、Jester:来自小丑在线笑话推荐系统的匿名评级。
7、BookCrossing:Book-Crossing数据集。
8、LastFM:来自1892个用户的92,800张艺术家录音。
9、Wikipedia:维基百科向感兴趣的用户提供所有可用内容的免费拷贝。这些数据库可用于镜像、个人使用、非正式备份、脱机使用或数据库查询。
10、OpenStreetMap:这里找到的文件是OpenStreetMap.org数据库的完整副本,包括编辑历史。这些都是在Open Data Commons Open Database License 1.0许可下发布的。
11、PythonGitCode:Hermes是Lab41对推荐系统的一次尝试。通过分析多种推荐系统算法在不同数据集上的性能,探讨了如何为新的应用选择推荐系统。
12、Gist:为机器学习推荐和评级的公共数据集。
13、Yelp:Yelp数据集是用于个人、教育和学术目的的业务、评论和用户数据的子集。可以在JSON和SQL文件中使用,在你学习如何制作移动应用程序时,可以使用它来教学生关于数据库、学习NLP或示例生产数据。
14、AmazonReviews:该数据集包含来自Amazon的产品评论和元数据,包括1996年5月至2014年7月期间的1.428亿个评论。这个数据集包括评论(评级、文本、帮助投票)、产品元数据(描述、类别信息、价格、品牌和图像特性)和链接(也查看/购买图表)。
15、CiteULike:CiteULike数据库对不同领域的研究人员都有潜在的用处。物理学家和计算机科学家对分析数据结构表示了兴趣,并经常要求提供数据集。以前,这是在一个特别的基础上完成的,它依赖于我们记住更新数据文件。现在,有一个自动的过程,每天晚上运行,生成一个快照摘要,说明用哪些标签发布了哪些文章。
16、Taobao:该数据集包含了匿名用户在“双十一”前后6个月的购物记录,以及表明他们是否重复购买的标签信息。由于隐私问题,数据采集存在偏差,因此该数据集的统计结果会与天猫的实际情况相背离。医疗健康
(以上是部分数据集,限于篇幅,完整版及链接扫码免费领)
1、200k 英语明文笑话:208000 种不同来源的明文笑话存档。
3、材料安全数据表:230000 材料安全数据表。(3GB)
4、百万新闻头条-澳大利亚 ABC[Kaggle]:由澳大利亚 ABC 新闻发布的从 2003 到 2017 年的 130 万新闻。(56MB)
5、全球新闻一周供稿[Kaggle]:在 2017 年 8 月的一周,用 20 多种语言全球发表的 140 万篇新闻事件数据集。(115MB)
6、路透社语料库:一个包含路透社新闻报道的数据集,用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录 1”或 RCV1,它远远大于原来在文本分类中被广泛使用的著名的路透社 21578 数据集。该语料库数据需要通过签署协议和发送邮件获取。(2.5GB)
7、SaudiNewsNet:31030 条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据。(2MB)
8、垃圾短信数据集:5574 条被标记为合法/不合法的、未经编码的真实英文短信消息。(200KB)
9、《南方公园》数据集:csv 格式文件,包含季、集、角色和台词的剧本信息。(3.6MB)
10、Twitter 的 Sentiment140(情感分析数据集):关于品牌/关键词的推文,网站包括论文和研究想法。(77MB)
11、Twitter 上对于美国各大航空公司的态度(Kaggle 数据集):这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了 2015 年 2 月的推文,贡献者们将其分类为积极、消极和中立,对于那些分类为消极态度的推文,还会给出原因(例如“飞机晚点”或“服务态度差”等)。(2.5MB)
12、城市词典(美国在线俚语词典)里的单词和定义:一个经过清洗的 CSV 语料库,包含截至 2016 年 5 月的城市词典内所有 260 万个词汇、定义、作者和投票情况。(238MB)
13、亚马逊的 Wesbury Lab Usenet 语料库:2005-2010 的 47,860 个英文新闻组的邮件匿名汇编。(40GB)
14、维基百科的 Wesbury Lab 语料库:2010 年 4 月维基百科英文部分中所有文章的快照。网站详细描述了数据是如何被处理的——即去除所有链接和不相关的材料(如导航文本等)。语料库是未经标记的原始文本,它被用于Stanford NLP。
15、维基百科的 XML 格式数据:所有维基媒体(Wikimedia)的完整复制,以维基文本元(wikitext source)和元数据的形式嵌入到 XML 中。(500GB)
18、Kaggle 比赛(请确保这些 kaggle 比赛数据可以在比赛之外使用)
19、Yelp:包含餐厅排名和 220 万条评论。
21、reddit 数据集(无数个数据集,大部分由业余爱好者爬取,但数据的整理和许可可能不够规范)
23、斯坦福 NLP 组(大部分为已标注的语料库和 TreeBanks,以及实用的 NLP 工具)
24、自然语言处理(NLP)数据集列表【Nicolas Iderhoff】
25、Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】
2、沪深股票除权除息、配股增发全量数据,截止 2016.12.31
3、上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票
4、深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票
5、深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票
6、深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票
7、上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票
8、深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票深证创业板日线数据,1999.12.09 至 2016.06.08,前复权,510支股票
3、UCF Google Street View 图像数据
5、The Celebrity in Places 图像数据
4、Animals With Attributes 标签图像
3、Biwi Kinect Head Pose 头部姿势数据
1、Street View House Number 门牌号图像数据
3、3D MNIST 数字识别图像数据【Kaggle数据】
4、MediaTeam Document 文档影印和内容数据
5、Text Recognition 文字图像数据
6、NIST Handprinted Forms and Characters 手写英文字符数据
7、NIST Structured Forms Reference Set of Binary Images
9、NIST Structured Forms Reference Set of Binary Images
7、(TorchCraft可读/365GB/6万多场次/15亿帧画面/近5亿用户操作)
13、微软数据集MS MARCO,阅读理解领域的「ImageNet」
4、纽约 Uber 接客数据 【Kaggle数据】
5、英国车祸数据(2005-2015)【Kaagle数据】
7、KITTI 自动驾驶任务数据【数据太大仅有部分】
8、Cityscapes 场景标注数据【数据太大仅有部分】
(以上是部分数据集,限于篇幅,完整版及链接扫码免费领)
点击阅读原文,领取学习资料