秘籍 | 机器学习数据集网址大全

2019 年 1 月 27 日 AI100


作者 | Will Badr

译者 | Linstancy

整理 | Jane

出品 | AI科技大本营(ID:rgznai100)


要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情。越来越多企业或研究机构将自己的数据集公开,已经成为全球的趋势,这也将有助于大家进行更多研究。


近期,亚马逊高级技术顾问 Will Badr 分享了 8 种适用于不同机器学习问题的常用数据集,并给出相应的描述,用法示例以及在某些情况下用于解决与该数据集相关的机器学习问题的代码。


1、Kaggle 数据集


链接:

https://www.kaggle.com/datasets


这是当前数据科学领域最热门,也是最受欢迎的数据集之一。在 Kaggle 中,每个数据集都是对应一项比赛,参赛者可以在这个小社区里讨论数据,查找一些公共代码或在 kernel 中创建自己的项目。Kaggle 中包含大量不同类型,不同大小以及多种不同格式的真实数据集。此外,参赛者还可以看到与每个数据集关联的 kernel,其中许多数据科学家会上传自己的 notebooks 来分析数据集,还能找到解决特定数据集问题的算法实现。

     



2、Amazon 数据集

链接:

https://registry.opendata.aws/


Amazon 数据库包含不同领域的多种数据集,如公共交通,生态资源,卫星图像等。在数据集官网还有一个搜索框,可以帮助使用者快速找到所需的数据集。每个数据集包含相应的数据集描述和使用示例,数据量非常丰富且易于使用。


此外,依托于 Amazon Web Services (AWS) 平台,如 Amazon S3,这些储存在云端的数据集都有高度的可扩展性服务,这对于那些使用 AWS 进行机器学习开发和实验的用户来说,将非常方便。因为在云端,数据集的传输将非常快。

     



3、UCI 机器学习数据集

链接:

https://archive.ics.uci.edu/ml/datasets.html

    

这是由加州大学欧文分校(UCI)信息与计算机科学学院的研究者创建的一个包含 100 多种不同类型数据集的大型数据库。该数据库根据不同的机器学习问题来对数据集进行分类,在这里,用户可以找到单变量、多变量时间序列数据集,分类、回归、推荐系统数据集等。此外,该数据库中的部分数据集已经经过数据清洗过程,是可以直接为用户使用。




4、Google 数据集所搜引擎

链接:

https://toolbox.google.com/datasetsearch

     

2018 年 9 月,Google 推出了这项服务,它是一个可以按名称搜索相应数据集的工具箱,其目标是集成数万个不同的数据集,并对用户开放使用。




5、Miscrosoft 数据集

链接:

https://msropendata.com/


2018 年 7 月,Miscrosoft 联合其外部的研究社区声明发布 Miscrosoft Research Open Data 服务。这项存储在云端的数据库,包含了一系列在已发表研究中使用过的数据集,致力于促进全球研究社区的研究合作。

     



6、Awesome 公开数据集

链接:

https://github.com/awesomedata/awesome-public-datasets


Awesome 是一个按不同主题分类的数据库,其中涵盖了如生物学,经济学,教育等不同领域的重要数据集,其中列出的大多数数据集都可供用户免费试用,但在使用任何数据集之前,用户需要通过认证已获得使用许可。

     



7、government 数据集


在这里你可以找到那些与政府相关的数据集。为显示政府工作的透明度,许多国家机构公开发布了其国家在一些领域的数据集,如下示例:


  • EU Open Data:欧洲政府数据集

链接:

https://data.europa.eu/euodp/data/dataset


  • US Gov Data:美国政府数据 (非政治问题上的数据集,但自特朗普政府上调以来,该网站数据集暂时无法使用)

链接:

https://www.data.gov/


  • New Zealand’s Government Dataset:新西兰政府数据集

链接:

https://catalogue.data.govt.nz/dataset


  • Indian Government Dataset:印度政府数据集

链接:

https://data.gov.in/

 




8、Computer Vision 领域数据集

链接:

https://www.visualdata.io/


如果是从事图像处理、计算机视觉或深度学习领域的工作,那么该数据集会是最好的实验资源。Visual Data 包含一些可用于构建计算机视觉(CV)模型的优秀数据集。使用者可以通过某个特定的 CV 任务来查找相应的数据集,如语义分割(semantic segmentation)、图像生成标题(image captioning)、图像生成(image generation),甚至是无人驾驶解决方案所需的数据集。




原文链接:

https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b

     


(本文为 AI科技大本营编译文章,转载请微信联系 1092722531 


———————————————  征稿  ————————————————


推荐阅读:

登录查看更多
6

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
339+阅读 · 2020年3月17日
机器学习资源大全中文版
智能交通技术
15+阅读 · 2019年7月24日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
不要担心没数据!史上最全数据集网站汇总
Python & 机器学习之项目实践 | 赠书
人工智能头条
14+阅读 · 2017年12月26日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
Arxiv
21+阅读 · 2019年3月25日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
11+阅读 · 2018年7月8日
VIP会员
相关资讯
机器学习资源大全中文版
智能交通技术
15+阅读 · 2019年7月24日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
不要担心没数据!史上最全数据集网站汇总
Python & 机器学习之项目实践 | 赠书
人工智能头条
14+阅读 · 2017年12月26日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员