数据集轻松按需搜索,这个工具汇集近2000个图像数据集,可免费获取|Reddit高热

2020 年 8 月 10 日 量子位
杨净 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

每个研究机器学习项目的人,似乎都有这样的痛苦。那就是从学术网站、GitHub上寻找到合适的数据集。

但现在,有这样一个网站可以帮你搞定,让AI开发变得更加简单易行。

这个项目名叫BIFROST,一个数据集搜索工具,里面共有1899个图像数据集,还专门设置分类,比如Humans、Geospatial、Autonomous Cars等。

一键搜索,免费获取,直接链接到原始数据库,帮你快速找到合适的数据集。
研究团队来自新加坡,Reddit上17小时热度200+。

使用说明

话不多说,我们就直接来上这个网站来试试~

正如刚才所看到的,这个工具是按任务、应用、类别、标签或格式进行分类。

根据「类别」,这个网站共分为18类,比如Humans、Geospatial、Autonomous Cars、Retail、3D等。


向左滑动,选择你需要的类别,一键即可出结果,我们以3D为例,然后就呈现这样的页面。


若以「Humans」为例,界面是酱紫的。

我们也看到,这是按照精选进行排序。除此之外,你还可以选择「最新」、「最多标签数」、「数据集大小」、「图片数量最多」这些分类。


除了「快速检索」之外,还可以根据开发人员的具体需要来进行搜索。


可以选择这些「限定」:任务类型,标签格式,最小图像数量。

其中任务类型主要包括,图像分割,目标检测、图像分类、姿态估计、视觉推理、3D重建、视频分类。

标签格式包括,YOLO、PASCAL、COCO以及Segmentation。

数据集

以COCO为例,这是一个适用于目标检测、图像分割和字幕大型数据集。

界面是这样的:


主要分为图像示例、数据集简介、特性、类别分布四个板块。

在简介部分,可以看到这个数据集的研究团队、一句话介绍,以及通过CC4.0协议的部分,还直接链接到原始数据库论文地址

CC4.0协议是一种知识共享许可协议,是一种允许他人分发作品的公共版权许可,还有一种类似的,MIT协议。

作者此次选择的近2000个数据集都通过了这两项协议的。所以网站并不直接管理这些数据集,它只是一个数据集的「搬运工」。

在「类别分布」这一板块,首先会提示,没有标签、标签过多的图像数量。


然后根据不同的标签类别,显示各自的图像数量分布。


以这个数据集为例,那么共有80个类别,其中交通信号灯、汽车、人的标签较多,其中「人」这个标签就有近9万张图像。


这个项目的负责人名叫Charles Wong ,来自新加坡,目前是Bifrost的CEO。

本科就读于新加坡科技设计大学,曾参与MIT Global Leadership Program。

接下来,他们的工作将主要集中在这几个方面:

  1. 将网站中的每一个数据集都进行全面分析

  2. 改进搜索方式

  3. 实现用户上传和分享自己的数据集

  4. 生成自己的合成数据集

「Why is our data better?

就像在网站上介绍到的那样,让你快速、高精度、高准确度地寻找到合适的图像数据集。

感兴趣的朋友,可以戳下方链接去试试哦~

网站地址:
https://datasets.bifrost.ai/
参考链接:https://www.reddit.com/r/MachineLearning/comments/i6fsl6/p_we_built_an_easy_way_to_find_image_datasets/

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

每天5分钟,抓住行业发展机遇

如何关注、学习、用好人工智能? 

每个工作日,量子位AI内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。

同时,AI内参群为大家提供了交流和分享的平台,更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅:

加入AI社群,与优秀的人交流


量子位 QbitAI · 头条号签约作者


վ'ᴗ' ի 追踪AI技术和产品新动态


喜欢就点「在看」吧 !


登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
2700篇+机器学习推理文献大全(1996-2019),附下载
专知会员服务
29+阅读 · 2020年9月6日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
Arxiv
35+阅读 · 2019年11月7日
Arxiv
11+阅读 · 2018年4月8日
VIP会员
相关VIP内容
2700篇+机器学习推理文献大全(1996-2019),附下载
专知会员服务
29+阅读 · 2020年9月6日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
相关资讯
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
干货收藏丨50个史上最佳机器学习公共数据集
七月在线实验室
5+阅读 · 2019年1月20日
最强数据集集合:50个最佳机器学习公共数据集丨资源
深度学习世界
4+阅读 · 2018年11月6日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
Top
微信扫码咨询专知VIP会员