【强推】这可能是国内最优质的海量数据集获取网站

2020 年 10 月 29 日 专知

在一个合格模型的诞生过程中,繁杂的数据收集与处理工作往往给算法工程师带来了低效的工作体验。

▲一个模型的诞...生...


好的数据,对模型训练至关重要。自己做数据,既昂贵又费时费力;但是,使用现成的数据集,既不好找又不好下载及使用,数据质量也参差不齐,可视化又困难,只有到下载后才能知道!

……

等等!


小编最近发现了一个

数据集获取神器

Graviti Open Dataset


这是一个提供海量公开数据集的平台,你可以方便快捷地从中搜索到想要的优质数据集;可在线预览样例数据、标注、标签,所见即所得;无需“梯子”即可免费高速下载国内外数据集


▷ 丰富多元的数据集种

▲全球TOP数据集合作伙伴

目前,Graviti Open Dataset已收录1000+个高质量人工智能数据集。提供一站式检索、高速下载,免费贡献学术社区


覆盖2D/3D目标检测、图像分割、图像分类、目标跟踪、OCR、姿态估计、无人驾驶、智慧零售、机器人等30+种AI应用领域拥有2D分类、2D多边形、2D矩形等20+种标注任务


与此同时,Graviti Open Dataset还包含了点云、图像、视频序列、三维模型多种数据格式。


这里举两个栗子:

无人驾驶类数据集

KITTI-object&Synscapes

▲KITTI-object,含2D/3D目标检测点云和图像数据


▲Synscapes,含25,000个真实街景图像


文本识别类数据集

MNIST&SVHN

▲MNIST,含60,000个手写数字样本的训练集和10,000个样本的测试集


▲SVHN,含600,000个数字图像


▷ 便捷美观的数据集可视化

话不多说,先上图片

▲训练集人像截取示例


▲图像多元素分类


使用Graviti数据可视化插件,实现在线可视化数据标注和数据分布,所见即所得


更有多种可视化方案供你随时查看再也不用担心费劲下完整套数据才发现根本不是自己想要的内容~


以下是来自官方微信群用户的真实反馈

▲数据集样例可视化展示


▷ 多维迅速的数据集查找

想找心仪数据集,现在一目了然。你不仅可以靠数据集的内容关键词搜索,还可以通过应用行业、标注类型等属性进行多维度查询


众所周知:找数据难,找海外数据更是难上加难。但拥有Graviti网站就像拥有一把万能钥匙。


进行COVID肺部医学影像检测模型训练?

在搜索框输入“COVID”即可一键抵达

▲搜索得到的优质数据集示例


还想搜索医学影像数据集?

选择“medical”进行行业搜索即得


▲更多医学相关数据集


还 没 有 心 动 吗 ?

压轴亮点来了!


▷ 高速稳定的海外数据下载

很多时候,我们的数据获取渠道都只提供主流的国内公开数据集,而更普适的模型却需要用海内外的多元数据去共同训练。


针对海外数据获取难、下载慢的问题,Graviti给出了一站式解决方案——将全球资源Host至国内镜像,无需VPN访问,满带宽极速下载。和进入海外官网下载相比,Graviti至少提速100%


从此告别繁琐的登录注册流程,告别令人抓狂的下载时长!


▲普通带宽下载海外数据,实测就有10MB/s的速度


▲官方微信群用户真实反馈

那么问题来了,海外下载提速需要会员吗?还是按次计费呢?


答案是:

完全免费

 


    

在Graviti,还有更多有趣又高质量的数据集在持续更新中,快来一起探索吧!


另外,如果你在他们网站发现自己感兴趣的数据不存在,也可以进他们的官方微信群反馈,说不定下次就为你上线了呢:)

▲官方微信群按用户需求上新的数据集


一键获取数据集

↑进官方微信群



除了托管公开标准的数据集,Graviti还将为用户提供个性化数据管理服务,包括数据免费托管、数据版本管理~还可以轻松完成对数据的拆分与合并,对于开发自己数据集的同学无疑是个非常值得期待的功能。



点击阅读原文,直达官网体验。

登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【WSDM2021】弱监督下的分层元数据感知文档分类
专知会员服务
9+阅读 · 2020年11月16日
【NeurIPS2020 】 数据扩充的图对比学习
专知会员服务
48+阅读 · 2020年11月9日
专知会员服务
136+阅读 · 2020年9月6日
【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
资源 | 开源数据集
AI研习社
8+阅读 · 2018年9月25日
推荐一波优质公众号!
机器学习算法与Python学习
6+阅读 · 2018年5月29日
最新!今日头条新闻文本分类数据集(github)
全球人工智能
14+阅读 · 2018年5月18日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
自然语言处理数据集免费资源开放(附学习资料)
Deep Co-Training for Semi-Supervised Image Segmentation
Arxiv
7+阅读 · 2018年6月8日
Arxiv
6+阅读 · 2018年2月8日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
【WSDM2021】弱监督下的分层元数据感知文档分类
专知会员服务
9+阅读 · 2020年11月16日
【NeurIPS2020 】 数据扩充的图对比学习
专知会员服务
48+阅读 · 2020年11月9日
专知会员服务
136+阅读 · 2020年9月6日
【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
相关资讯
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
资源 | 开源数据集
AI研习社
8+阅读 · 2018年9月25日
推荐一波优质公众号!
机器学习算法与Python学习
6+阅读 · 2018年5月29日
最新!今日头条新闻文本分类数据集(github)
全球人工智能
14+阅读 · 2018年5月18日
干货 | 100+个NLP数据集大放送,再不愁数据!
THU数据派
13+阅读 · 2018年5月1日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
自然语言处理数据集免费资源开放(附学习资料)
Top
微信扫码咨询专知VIP会员