Google数据集搜索神器上线,和搜索论文一样简单 | 还不去训练网络?

2018 年 9 月 6 日 量子位
圆栗子 发自 凹非寺 
量子位 出品 | 公众号 QbitAI


谷歌数据集搜索工具,上线了。

在发布这个消息的博客里,团队大概表达了这样的意思:

现在啊,许多领域的科学家,每天呼吸的不是空气,是数据集。没有数据集,他们就活不下去。

       

 唯有数据集,能救命

不过,数据集分散在世界的各个角落,口口相传是最常用的传播途径。

谷歌想让搜索数据集,能像在Google Scholar上搜索论文那样容易。

如此,便有了Google Dataset Search

猫喜欢什么口味的冰淇淋?

这样一来,不论是哪里发布的数据集,谷歌一下就出来了。

使用方法都有,你又少了一个不好好训练网络的理由。

所以,一起来试一下吧。在下是按衣食住行四类,分别搜索的。

·衣·

穿着的部分,搜的是胖次pants

然后,就出现了墨西哥、秘鲁、哥伦比亚,各个国家关于裤子的数据集。

比如,从棉裤的视角,可看墨西哥的经济状况。

·食·

吃的东西,搜了ice cream

最吸引人的,当然不是各国的冰淇淋生产力。

猫在哪个年纪,喜欢哪种口味的冰淇淋,果然有 (mei) 些 (sha) 研究价值。

·住·

就看北京房价吧,搜索beijing house price

第一条结果来自Kaggle,是链家2011到2017年的数据。

这数据集的杀伤力,应该还是很大的。有兴趣的大家,可以自行观察。

传送门:https://www.kaggle.com/ruiqurm/lianjia

·行·

感觉出行服务、共享单车,也不会有什么惊喜。就搜了个horse


当然,搜出香港赛马的数据,也并不惊喜。

第二条,是关注马体健康状况的疝气数据。曾经有项研究,用疝气预测马的死亡概率。

数据集里,也有大千世界,各位不妨自己去搜一搜。

数据集搜索,不是一天建成的

为了搭好这个搜索工具,谷歌团队给提供数据集的人们,准备了一份充满关怀的指南。

这样一来,大家对贡献的数据集,就能有个统一的描述方式:

· 谁创建了数据集?
· 什么时候发布的?
· 数据怎样收集的?
· 使用方法是什么?
……

信息一项一项填好,搜索工具才能更友好。

描述的时候,只要依照Schema.org的标准词汇表,就可以了。


谷歌把信息收集起来之后,就会去分析,一个数据集的不同版本,可能在哪些地方。

除此之外,还要看看有哪些论文 (或者其他出版物) ,提到过这个数据集。

谷歌团队说,这一版已经支持多种语言。更多语言的支持也已经在路上了。

比如,想要自我打击的话,现在可以直接搜索“中国房价”。

普通谷歌搜索,也能搜数据表格

谷歌在数据集上做过的事情,远不止Dataset Search这个工具这么简单。

除此之外,团队也为人类最常用的谷歌搜索,加入了表格数据搜索的能力。

 进化前 vs 进化后 (右)

就像这样,已经可以搜索出谷歌基金会 (Google Foundation) 2014的总开支。

不过谷歌说,现在的这些努力结果,还是不够好。

他们希望,未来不论是科研领域、政府部门、新闻机构,还是任何各行各业,都有源源不断的数据,能从谷歌的平台上搜索出来。

意思就是,能提供数据集的大家,快到碗里来

Dataset Search传送门:
https://toolbox.google.com/datasetsearch

加入社群

量子位AI社群19群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
33+阅读 · 2020年7月5日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
190+阅读 · 2020年6月29日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
谷歌机器学习速成课程中文版pdf
专知会员服务
143+阅读 · 2019年12月4日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
9+阅读 · 2019年1月30日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
Google:数据并行对神经网络训练用时的影响
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
[学习] 这些深度学习网络训练技巧,你了解吗?
菜鸟的机器学习
7+阅读 · 2017年7月29日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
相关资讯
Top
微信扫码咨询专知VIP会员