谷歌数据集搜索正式版出炉:全面升级,覆盖2500万数据集

2020 年 1 月 27 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

本文转载自: 机器之心  |  参与:李泽南、一鸣
公开数据集往往存在于论文和网站数据库中,想要找到它们需要花费一番功夫。除了 机器之心 SOTA 以外,搜索公开数据集的搜索引擎仍然比较少——除了谷歌的数据集搜索工具以外。

近日,谷歌宣布,它们的数据集搜索引擎不再是 beta 版了。这意味着该产品已经正式向用户们开放使用。Jeff Dean 和谷歌官方都在推特上宣布了这一消息。


谷歌数据集搜索的 beta 版本早在 2018 年 9 月就上线了,该引擎面向「科学家、开发者、数据极客等人群」,一直以来都是人们寻找数据集的主要方式之一。

链接:https://datasetsearch.research.google.com/


在网络中,任何你感兴趣的主题都可能有无数种数据集。如果你想买一只小狗,你可以在数据集搜索中找到小狗买家评价的数据集。如果你喜欢滑雪,也可以找到有关著名滑雪地盈利和受伤概率数字的数据集。今天,谷歌数据集搜索已经涵盖了超过 2500 万种不同类型的数据集,它可以帮助你轻松地找到所有数据集的下载链接。

谷歌表示,经过一年多的努力,数据集搜索功能的阶段性测试已经完成。

如果你在数据集搜索上输入「skiing」,会出现的结果:出现了从最快的滑雪运动员到滑雪地的收入数据集等不同类型。

正式版更新了什么?

谷歌从用户在 Beta 版的使用中获得了很多经验。在正式版中,你可以根据所需的数据集类型(表格、图片、文本等),或者数据集是否可以免费获取等条件来进行搜索。如果数据集是关于某个地区的,你也可以通过地图进行查找。另外,现在搜索也做了移动端的适配,并大幅改善了数据及描述的质量。任何数据集发布者都可以通过 schema.org 开放标准在自己的网站上进行规范性描述,以提高搜索结果的质量。

对于不同的学科来说,人们进行的搜索是完全不同的:科学家会寻找研究目标(如搜索催产素),学生会搜索包含自己作业主题的关键字,业务分析师和数据科学家会寻找移动 app 或快餐店销售的数据……今天,所有这些内容都有数据集。

谷歌表示,目前人们在数据集搜索上查询频率最高的词是「教育」、「天气」、「癌症」、「犯罪」、「足球」以及「狗」。

搜索「快餐店」出现的结果索引。

哪些数据集可以找到?

数据集搜索引擎可以提供数据集的快照信息,特别是有关地理信息、生物和农业方面的信息。很多信息都来自于 schema.org,只要网络上存在的数据集符合 schema 的开放标准,搜索引擎就可以搜索到。

除了公开数据之外,数据集搜索引擎还包括了很多政府公开数据,包括美国政府超过两百万的数据集。绝大部分的公开数据都是以表格形式存储的,可以很容易地下载并进行处理。

使用体验

机器之心尝试了这一数据集搜索工具。例如,我们在搜索栏里输入了 CIFAR,搜索引擎很容易就提供了 CIFAR-10 和 CIFAR-100 两个数据集的搜索结果,并附带数据集全名、被引用数量、更新时间、提供者、下载方式、介绍和信息来源等。


如果我们不知道数据集叫什么名字,但是想看看有没有某种数据的数据集呢?机器之心尝试了一些不常用关键词,如「Chinese Poem」(中国诗歌)。


搜索结果也还不错,提供了相当多的数据集,包括数据集所在的论文等。

下一步计划

项目团队表示,他们会继续优化数据集搜索这项产品,并欢迎用户提出进一步改进建议。

参考链接:
https://blog.google/products/search/discovering-millions-datasets-web/
https://www.reddit.com/r/MachineLearning/comments/etdiz9/n_googles_dataset_search_is_out_of_beta/

重磅!CVer-学术交流群已成立


扫码可添加CVer助手,可申请加入CVer大群和细分方向群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索等群。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加群


▲长按关注我们

麻烦给我一个在看!

登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
专知会员服务
39+阅读 · 2020年6月7日
【ACL2020-Google】逆向工程配置的神经文本生成模型
专知会员服务
17+阅读 · 2020年4月20日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
30+阅读 · 2020年4月12日
【机器学习课程】Google机器学习速成课程
专知会员服务
168+阅读 · 2019年12月2日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
已删除
将门创投
4+阅读 · 2018年6月1日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
谷歌要输给“邪恶的独角兽”了
商业周刊中文版
3+阅读 · 2017年12月17日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
One-Shot Federated Learning
Arxiv
9+阅读 · 2019年3月5日
UPSNet: A Unified Panoptic Segmentation Network
Arxiv
4+阅读 · 2019年1月12日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关VIP内容
相关资讯
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
已删除
将门创投
4+阅读 · 2018年6月1日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
谷歌要输给“邪恶的独角兽”了
商业周刊中文版
3+阅读 · 2017年12月17日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员