Google打造的新搜索工具,有戏吗?

2018 年 9 月 6 日 宅客频道

Google和数据技术的发展一直是齐头并进的,现在Google通过更快搜索数据来进一步强化大众和数据的关系。

眼下,一个好消息又来了:Google再次宣布开放一个全新的搜索服务:Dataset Search(数据集搜索)。

还记得不久之前Google发布的Google  Scholar(学术搜索)吗?当时的Google

 Scholar 填补了快速查找学术资料的空白,那么这一次,Google直接将注意力更精准地聚焦到了数据集,简直“体贴又细心”!

Google人工智能研究科学家Natasha Noy表示,科学家、研究人员、数据记者和其他有兴趣使用数据的人是这个工具的主要受众,与此同时,Google认为这些数据集在整个Google产品中的地位将会变得更加突出。


数据工作者的又一“神器”

首先,数据集到底是什么?先来普及下概念。Dataset(数据集),又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。Dataset通常以表格形式出现。每一列代表一个特定变量,每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。

从历史上看,这个术语起源于大型机领域,在那里它有一个明确界定的意义,非常接近现代的计算机档案。

Natasha Noy表示,这个新服务会将数万个不同在线数据集存档统一起来。那最终这些数据集的归属在哪呢?Natasha Noy谈到:“我们想要让这些数据可以被发现,但数据仍保留在原始位置。”


如何运行?我们尝试进行了操作

这个Dataset Search怎么运行的?事实上,即使对于组织最完善、数据最丰富的人来说,也需要利用来源于外部的数据。

举个天气和环境数据的典型例子。

假设你想要将农业数据与天气现象相关联以预测作物生长,或者想要研究天气对整个历史时期发生的现象的影响。这种历史天气数据,几乎不可能由任何单一组织积累和策划,很可能由NOAA和NASA等组织随时提供(注:NOAA是美国国家海洋和大气管理局,NASA是美国国家航空航天局)。

这些组织会通过专用数据门户定期策划和发布其数据,因此,如果你需要定期获取数据,可能需要熟悉通过这些门户定位数据的过程。当然,你还必须同时关注NOAA和NASA之外的其他可能的信息来源。

如果不仅需要天气数据,还想找到正确的来源,然后再找到这些来源的更多正确数据,在此之前一个搜索界面根本无法做到,现在Google开发了Dataset Search,可以实现一个界面搜索出来,是不是很惊喜很意外?

实际上,Google对结构化数据的热爱一直是持续的,标志性事件就是通过收购Metaweb整合了Google的知识图谱,并通过schema.org支持结构化元数据。

搜索数据集会检索查询的多个结果,显示数据集提供者和时间段

宅客频道编辑尝试进入Dataset Search官网,发现在搜索页面,如果一个数据集直接对应于一个出版物,那么在数据集名称旁边就有一个出版物的链接。雷锋网还观察到,Google还提供了参考数据集的出版物的大致数量。


诸多问题值得考虑:错误内容、排名与盈利的可能

推出了这个搜索,不仅为专业用户提供方便,而且对于数据集提供商也是大有好处。NOAA的CDO(首席开发官) Ed Kearns是该项目的坚定支持者,并帮助NOAA在该工具中搜索了许多数据集。

“这种类型的搜索,长期以来一直是开放数据和科学界许多研究人员的梦想。对于NOAA而言,一部分工作是与他人共享我们的数据,Dataset Search对于让更广泛的用户社区更容易访问我们的数据至关重要。”

Dataset Search搜索后进入某一个数据集链接,其对一些信息的排名

为了避免数据集提供商将内容错误地描述为“数据集”,Google能够告诉它“这不是一个数据集”或者降低它的排名吗?Google并没有给出明确的应对措施,只是表示,Google会在用户开始使用该工具后获得更多经验,进行改进,努力地提高结果的质量。

如何解决被搜索出的数据集排名问题呢?Google表示,对数据集来自的页面使用Web排名的组合(基于Google算法),并将其与数据集特定信号(如元数据质量、引用等)相结合。

再进一步想,如果排除在搜索排名上盈利的可能,Google哪一天会不会拿它出来盈利?比如从销售渠道收集数据,并使用它们来生成具有洞察力的定期报告?

不论如何,眼下这个项目是有助于科学决策的,需要的人士尽管放心的使用。不过随着数据的价值越来越凸显,Google也越来越重视,包括其在云计算和AI不断加大投入。

大胆猜测一下,Dataset Search会是Google在学术数据领域的商业化的第一步。

蓝字查看更多精彩内容


探索篇

  暗网【上】|  暗网【下

草榴社区 女鉴黄师 | 以图搜图

心脏滴血 撞库攻击 | 潜行追踪

刷票 | 人肉 | 勒索 | 内鬼

超级欺骗系统


真相篇

战斗民族野生聊天 App

草榴社区这类色情网站为什么封不掉

什么样的漏洞买得起北京二环一套房?

上了个“假”黄网,误入了7亿黑产的大门

13岁小黑客自学一年挖到了微软、谷歌的漏洞

中学教材现黄色网站 人教社回应遭网友质疑

干货!top白帽子 Gr36_ 手把手教你挖漏洞

我们可以用“免疫系统”对抗黑客入侵吗?

这位叔叔要教勒索软件一些做人的道理

有个网站叫“我知道你下载了什么”

无线电攻击居然还能用来打飞机

“道哥”透露从业初心


人物篇


道哥:重回阿里的29个月

黑客老王:一个人的黑客史

吴石:站在0和1之间的男人

黑客衰大:45天攻入姑娘的心

黑客段子手“呆子不开口”

“特斯拉破解第一人”刘健皓

唐青昊:虚拟世界的越狱者

MOSEC:盘古团队的野心优雅

让周鸿祎“三顾茅庐” 的 黑客 MJ

美女黑客张婉桥的“爱丽丝奇遇记”

TK教主和玄武实验室的几个小故事

把老婆训练成女黑客的漏洞大神黄正

“真爱”黑客 Fooying 手把手教你追妹子


更多精彩正在整理中……

---

“喜欢就赶紧关注我们”

宅客『Letshome』

雷锋网旗下业界报道公众号。

专注先锋科技领域,讲述黑客背后的故事。

长按下图二维码并识别关注


登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
24+阅读 · 2019年11月19日
Deep-CEE:AI深度学习工具,帮助天文学家探索深空
深度学习探索
5+阅读 · 2019年7月21日
教你打造一个属于自己的「搜索引擎」
少数派
9+阅读 · 2018年10月23日
在 Google 工作六年半后,我还是选择离职了
开源中国
4+阅读 · 2018年10月21日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
【机器学习】基于TensorFlow搭建一套通用机器学习平台
Arxiv
3+阅读 · 2019年9月5日
Arxiv
11+阅读 · 2019年6月19日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
相关资讯
Deep-CEE:AI深度学习工具,帮助天文学家探索深空
深度学习探索
5+阅读 · 2019年7月21日
教你打造一个属于自己的「搜索引擎」
少数派
9+阅读 · 2018年10月23日
在 Google 工作六年半后,我还是选择离职了
开源中国
4+阅读 · 2018年10月21日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
【机器学习】基于TensorFlow搭建一套通用机器学习平台
Top
微信扫码咨询专知VIP会员