AWS 上可用的公用数据集,任何人都可以免费访问

2018 年 4 月 2 日 AI研习社 AWS

AWS 托管了各种公用数据集,且任何人都可以免费访问。

过去,查找、下载、自定义和分析卫星图像或基因组数据等大型数据集需要几个小时或几天的时间。当数据在 AWS 上公开提供后,任何人都可以分析任意数量的数据,而无需自行下载或存储这些数据。您可以使用 AWS 计算和数据分析产品 (包括 Amazon EC2、Amazon Athena、AWS Lambda 和 Amazon EMR) 来分析这些数据集。

  地理空间和环境数据集

在 AWS 上的地球页面了解更多有关如何使用 AWS 上的地理空间数据的信息。

  • AWS 上的 Landsat:地球陆地卫星图像集合,持续采集由 Landsat 8 卫星拍摄的卫星图像。

    http://amazonaws-china.com/public-data-sets/landsat/

  • AWS 上的 Sentinel-2:地球陆地卫星图像集合,持续采集由 Sentinel-2 卫星拍摄的卫星图像。

    https://amazonaws-china.com/public-datasets/sentinel-2/

  • AWS 上的 GOES:GOES 可以持续提供北美的气候影像并监控该地区的气象和太空环境数据。

    https://amazonaws-china.com/cn/public-datasets/goes/

  • AWS 上的 SpaceNet:包含商业卫星图像和带标签的训练数据的语料库,用于促进计算机视觉算法的创新发展。

    http://amazonaws-china.com/public-data-sets/spacenet/

  • AWS 上的 OpenStreetMap:OSM 是一款免费的可编辑世界地图服务,由志愿者创建和维护。可定期在 Amazon S3 中对 OSM 数据进行存档。

    https://amazonaws-china.com/cn/public-datasets/osm/

  • AWS 上的 MODIS:从美国地质调查局和美国航空航天局管理的中等分辨率成像光谱仪 (MODIS) 中选择产品。

    https://amazonaws-china.com/public-datasets/modis/

  • Terrain Tiles:一个全球数据集,提供裸地地形高度,平铺显示以便于使用,在 S3 上提供。

    https://amazonaws-china.com/cn/public-datasets/terrain/

  • NAIP:在美国大陆农作物生长季节捕获的 1 米航空图像

    https://amazonaws-china.com/cn/public-datasets/naip/

  • AWS 上的 NEXRAD:来自下一代气象雷达 (NEXRAD) 网络的实时和存档数据。

    https://amazonaws-china.com/cn/public-datasets/nexrad/

  • NASA NEX:由美国航空航天局维护的地球科学数据集,包括气候变化预测和地球表面的卫星图像。

    http://amazonaws-china.com/nasa/nex/

  • 哥伦比亚特区激光雷达:华盛顿特区的激光雷达点云数据。

    https://amazonaws-china.com/public-datasets/dc-lidar/

  • EPA 风险筛选环境指标:从 EPA 风险筛选环境指标 (RSEI) 模型得出的详细空气模型结果。

    https://amazonaws-china.com/public-datasets/epa-rsei/

  • HIRLAM 气象模型:HIRLAM (高分辨率有限区域模型) 是一个由芬兰气象研究所管理的实际天气和中尺度气象预测模型。

    https://amazonaws-china.com/public-datasets/fmi-hirlam/

  基因组和生命科学数据集

了解更多有关云中基因组的信息。

  • 1000 Genomes Project:人类遗传变异详图。

    https://amazonaws-china.com/1000genomes/

  • AWS 上的 TCGA:来自 The Cancer Genome Atlas (TCGA) 的原有的及处理过的基因组、转录组和表观基因组数据,可供符合条件的研究人员通过癌症基因组云进行访问。

    http://amazonaws-china.com/public-data-sets/tcga/

  • AWS 上的 ICGC:完整的基因组序列数据,可供符合条件的研究人员通过国际癌症基因组联盟 (ICGC) 访问。

    http://amazonaws-china.com/public-data-sets/icgc/

  • 3000 Rice Genome on AWS:3024 种大米的基因排序。

    https://amazonaws-china.com/public-data-sets/3000-rice-genome/

  • Genome in a Bottle (GIAB):有助于将整个人类基因组序列投入医学实践的某些参考基因组。

    https://amazonaws-china.com/cn/public-datasets/giab/

  机器学习数据集

了解更多有关 AWS 上人工智能和机器学习的信息。

  • Common Crawl:包含超过 50 亿网页的 Web 爬取数据语料库。

    https://amazonaws-china.com/public-data-sets/common-crawl/

  • Amazon Bin Image Dataset:拥有超过 500000 个 bin JPEG 图像和对应的 JSON 元数据文件,描述了正在运营的亚马逊运营中心中的产品。

    https://amazonaws-china.com/public-datasets/amazon-bin-images/

  • GDELT:超过 2.5 亿条记录,可从几乎每个国家/地区的每个角落监控全球的广播、出版物和 Web 新闻,每天更新。

    https://amazonaws-china.com/public-datasets/gdelt/

  • Multimedia Commons:约 100M 的图像和视频的集合,附带影音功能和注释。

    http://amazonaws-china.com/public-data-sets/multimedia-commons/

  • Google Books Ngrams:包含 Google Books 的 n-gram 语料库的数据集。

    https://amazonaws-china.com/datasets/google-books-ngrams/

  • AWS 上的 SpaceNet:包含商业卫星图像和带标签的训练数据的语料库,用于促进计算机视觉算法的创新发展。

    http://amazonaws-china.com/public-data-sets/spacenet/

  金融数据

  • Deutsche Börse 公开数据集:来自 Deutsche Börse 市场交易系统的实时数据,免费向公众提供。

    https://amazonaws-china.com/public-datasets/deutsche-boerse-pds/

  监管和统计数据

  • AWS 上的 IRS 990 Filings:从 2011 年至今提交 IRS 的部分 990 电子报表中可以由计算机读取的数据。

    https://amazonaws-china.com/public-datasets/irs-990/

  • AWS 上的 ACS PUMS:使用资源描述框架 (RDF) 数据模型以链接数据格式提供美国人口普查美国社区调查 (ACS) 公用微数据样本 (PUMS)。

    https://amazonaws-china.com/public-datasets/us-census-acs/

  • AWS 上的 USAspending.gov:USAspending.gov 数据库包含联邦政府的所有开支数据,包括合同、津贴、贷款、员工薪资等。

    http://amazonaws-china.com/public-datasets/usaspending

算机视觉基础(从算法到实战应用)班

限时拼团,最后一周

已有100+人参加了此拼团

最高每人优惠200元!



新人福利



关注 AI 研习社(okweiwu),回复  1  领取

【超过 1000G 神经网络 / AI / 大数据资料】



亚马逊 Alexa Prize 比赛冠军团队专访:聊天机器人的突破与创新

登录查看更多
11

相关内容

由亚马逊云平台提供的一种信息服务。
Python地理数据处理,362页pdf,Geoprocessing with Python
专知会员服务
110+阅读 · 2020年5月24日
Python导论,476页pdf,现代Python计算
专知会员服务
253+阅读 · 2020年5月17日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
【伯克利-滴滴出行】深度学习多源领域自适应综述论文
专知会员服务
53+阅读 · 2020年2月28日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
9+阅读 · 2019年1月30日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
资源 | 一份非常全面的开源数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年9月7日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
下载 ‖ 十大医疗数据集
机械鸡
102+阅读 · 2017年8月5日
Arxiv
14+阅读 · 2020年2月6日
Arxiv
34+阅读 · 2019年11月7日
Deep Learning for Deepfakes Creation and Detection
Arxiv
6+阅读 · 2019年9月25日
A Comprehensive Survey on Graph Neural Networks
Arxiv
21+阅读 · 2019年1月3日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2017年12月18日
Arxiv
5+阅读 · 2016年1月15日
VIP会员
相关资讯
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
9+阅读 · 2019年1月30日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
资源 | 一份非常全面的开源数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年9月7日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
下载 ‖ 十大医疗数据集
机械鸡
102+阅读 · 2017年8月5日
相关论文
Arxiv
14+阅读 · 2020年2月6日
Arxiv
34+阅读 · 2019年11月7日
Deep Learning for Deepfakes Creation and Detection
Arxiv
6+阅读 · 2019年9月25日
A Comprehensive Survey on Graph Neural Networks
Arxiv
21+阅读 · 2019年1月3日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2017年12月18日
Arxiv
5+阅读 · 2016年1月15日
Top
微信扫码咨询专知VIP会员