Google推出数据集搜索!百度,你怎么看?

2018 年 9 月 6 日 AI100

       

作者 | 非主流

出品 | AI科技大本营(公众ID:rgznai100)


继 Google Scholar(Google 学术搜索)之后,Google 又为科研工作者推出了一款重磅产品—— Google Dataset Search(Google 数据集搜索)。


网址:

https://toolbox.google.com/datasetsearch


为什么说这款产品如此重要?因为数据从未如此重要。由于深度学习的兴起,AI 研究员需要大量的数据来训练他们的模型,吴恩达就曾表示,深度学习像火箭,计算是引擎,数据是燃料。有时候,数据可能比算法更重要。


然而,数据集和相关数据往往分布在网上的多个数据存储区中。在大多数情况下,搜索引擎既无法提供这些数据库相关信息的链接,也不会将这些信息编入索引,这会导致数据寻找变得无比繁琐,或者在某些情况下无法实现。


一些掌握了大量数据的互联网公司也因此拥有很大的优势,而高校的学者除了一些公开的知名数据集,想要拥有大量的数据则非常困难,因此 Google 的这款产品可谓是及时雨。当然,其他需要各种数据的工作者也能从中受益。


Google Dataset Search 为用户提供了能够同时搜索多个存储区的单个界面,希望借此改变用户发布和运用数据的方式。


现在,就让我们来一起看下这款搜索工具。


与 Google Scholar 类似,Google Dataset Search 可方便用户查找托管在任何位置的数据集,无论是出版网站、数字图书馆还是作者的个人网页


为了创建 Dataset Search,Google 还为数据集提供方制定了一套数据指南(https://developers.google.com/search/docs/data-types/dataset)。这些指南包括有关数据集的重要信息:数据集的作者,发布时间,数据收集方式,使用数据的条款等等。然后,Google 收集并链接这些信息,分析同一数据集的不同版本可能在哪里,并找到可能描述或讨论这一数据集的出版物。


Google 的指南是基于一个数据集的开放标准(schema.org),任何发布数据的人都可以通过这种方式描述他们的数据集。

             

在这个新版本中,用户可以找到很多环境和社会科学相关的数据集,以及其他学科的数据,包括政府数据和新闻机构提供的数据,如 ProPublica。随着越来越多的数据仓库使用 schema.org 标准来描述他们的数据集,Google Dataset Search 能够搜索到的数据集的种类和覆盖面将持续增长。


目前 Google Dataset Search 已经支持多种语言,笔者尝试了下,除了英文,还支持中文。


我们先尝试下英文搜索,如果你想分析天气记录,那么就可以在 Google Dataset Search 的输入栏里尝试输入“daily weather”,结果如下图所示:              

可以看到,左边栏呈现的是各种数据源,右边则是相应的介绍,包括数据集的名称、下载链接、更新日期、提供者、说明等等,非常清晰。


现在,我们来尝试下中文,在搜索栏输入“房价”,第一条就是中国房价的数据集,该数据集由 CEIC 提供,涵盖的时间段从 2017年7月1日  — 2018 年 6 月 1 日,算是非常新的数据了。

              

打开该数据集的链接,嗯,是个收费网站。不过,花钱能解决的事,总比毫无头绪来得好。

      


Dataset Search 的发布凸显了 Google 对数据集的重视。最近,Google 也对自家的 Google Search 也进行了改进,使得用户搜索结果中发现表格数据变得更加容易,不过该计划更侧重于新闻机构和数据记者,而 Dataset Search 的受众则更加广泛。


Google 表示,这个项目能够带来下列好处:


  • a) 形成数据共享生态系统,鼓励数据发布者依照最佳做法来存储和发布数据;

  • b) 为科学家提供相应平台,方便大众引用他们创建的数据集,展现他们的研究成果所带来的影响力。


当然,Google Dataset Search 的搜索质量取决于数据发布者,因此,如果大家都用开放标准来描述自己的数据,那么搜索结果肯定会越来越好。


Google Dataset Search 目前仍处于测试阶段,虽然支持中文搜索,但中国大陆的用户想要使用依然需要“梯子”,不过这么好的工具,错过岂不可惜!


针对 Google Scholar,2014 年 6 月百度上线了“百度学术”,不过大家似乎仍对 Google Scholar 情有独钟。这次,百度怎么看?



——完——




招聘

AI科技大本营现招聘内容运营实习生,有意者请将简历投至:gulei@csdn.net,期待你的加入!


工作要求:


  • 熟练使用微信、今日头条等平台发布文章,并负责其他对外推广渠道的内容铺建,用户管理以及互动;

  • 追踪AI领域动态,协助AI内容生产;

  • 能保证每周三天的工作时间。


工作地点:

北京市朝阳区酒仙桥路10号院恒通商务园


AI科技大本营在线公开课第15期

机器学习专场

时间:9月6日(今晚) 20:00-21:00

添加微信csdnai,备注:机器学习,入群交流

入群福利:讲师交流+PPT分享+抽奖送书


登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
打怪升级!2020机器学习工程师技术路线图
专知会员服务
98+阅读 · 2020年6月3日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
这位程序员为什么要弃用Facebook?
CSDN
5+阅读 · 2017年7月14日
AutoML: A Survey of the State-of-the-Art
Arxiv
69+阅读 · 2019年8月14日
Arxiv
6+阅读 · 2018年4月23日
Arxiv
8+阅读 · 2018年1月25日
VIP会员
相关VIP内容
打怪升级!2020机器学习工程师技术路线图
专知会员服务
98+阅读 · 2020年6月3日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
相关资讯
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
这位程序员为什么要弃用Facebook?
CSDN
5+阅读 · 2017年7月14日
Top
微信扫码咨询专知VIP会员