70个免费公开数据集,帮你打造个性神经网络

2017 年 12 月 26 日 论智 Bot
来源:KDnuggets
编译:Bot

编者按:虽然我们现在已经不再炒作“大数据”这个概念,但在日常生活中,数据的身影无处不在。每一份权威报告都始于客观、干净的数据,而每一个靠谱的ML模型都基于数量可观的训练集……那么,收集数据真的是一件困难的事情吗?

临近年关,论智为关注我们的读者准备了一份数据集“大礼包”。虽然市面上有成千上万个免费数据集,但本文只筛选了2017年更新的70个免费数据集地址,内容涵盖政府、犯罪、医疗、金融、媒体等多个类别,质量过硬有保障。想要DIY模型或分类器的小伙伴不妨换换口味,不要在做图像识别、对象检测这样已经泛滥的项目啦,打造你自己的个性神经网络吧!

另外,本文涉及领域十分广泛,论智在此希望也能给撰写报告的各位帮上一点小忙。各网站地址可点击文末「阅读原文查看。


免费数据集:政府

1.Data.gov

这是美国政府的一个开放数据平台,内容包括农业、气候、经济、生态系统、教育、能源、金融、医疗、制造业、犯罪、科学研究等方方面面。

2.Data.gov.uk

这里汇聚了英国政府部门、公共机构和地方当局发布的公开数据,内容包括商业、环境、地理、犯罪、政府、就业/福利、国防、教育、医疗、交通运输等。

3.US. Census Bureau

这里是美国政府搜集的一些关于国民生活的统计数据,包括人口、经济、教育、地理等等。

4.The CIA World Factbook

这是美国中情局(CIA)的一本书,涵盖全球267个国家或地区的历史、政府、人口、经济、能源、地理、交通、通讯、军事等问题。

5.Socrata

socrata是一个软件公司,这一点很有趣,它主要为美国政府部门提供一些可视化数据服务,目前超过1200个政府机构已采用了他们的数据。它主张向公民开放数据,所以上面的资源都是公开免费的。

6.European Union Open Data Portal

这称得上是获取欧盟官方机构数据的唯一途径,包含包括地理、地缘政治、金融数据、统计数据、选举结果、法律行为以及犯罪、健康、环境、运输和科学研究等各方面的数据。它提供了一种标准化的目录,支持一些web工具、SPARQL端点查询编辑器和其他API访问。

7.Canada Open Data

这是一个包含加拿大政府服务、财务、国家人口信息和高分辨率地图的数据集平台。

8.Datacatalogs.org

提供来自美国、欧盟、加拿大、CKAN等的公开政府数据。

9.U.S. National Center for Education Statistics

国家教育统计中心(NCES)是收集和分析美国和其他国家有关教育数据的机构。

10.UK Data Service

这里主要包括英国政府资助的一些调查项目,有跨国调查、纵向研究、英国人口普查数据、商业数据等。

免费数据集:犯罪

11.Uniform Crime Reporting

UCR计划一直是执法人员、刑事司法学者、研究人员、媒体和广大公众寻求国内犯罪信息的主流平台。

12.FBI Crime Statistics

UCR下的一个子类,是FBI专门搜集的犯罪数据统计,包括基于种族、性别、性别认同、宗教信仰、残疾、性取向和种族歧视的犯罪行为和犯罪动机。

13.Bureau of Justice Statistics

包含关于美国司法系统的任何信息,包括与逮捕有关的死亡事件、监狱囚犯普查、DNA犯罪普查、执法单位调查等。

14.National Sex Offender Search

包含全美犯罪数据,会实时更新每个辖区的最新案情。

免费数据集:医疗

15.U.S. Food & Drug Administration

可下载美国FDA毒品情况压缩文件。

16.UNICEF

联合国儿童基金会官网,可下载全球数百万儿童的生存、发展情况。

17.World Health Organisation

世界卫生组织官网,可下载关于150多个国家人民的营养、疾病和健康统计情况。

18.Healthdata.gov

美国125年来的医疗数据,包括索赔级别的医疗保险数据、流行病学和人口统计。

19.NHS Health and Social Care Information Centre

来自英国国家卫生服务机构的健康数据集。该组织编制了260多份官方和国家统计出版物。其中包括从长期的“医院情况统计”中发展而来的国家二级用药比较数据,可以帮助当地决策者提高一线护理的质量和效率。

免费数据集:金融和经济

20.World Bank Open Data

世界银行开放数据库,涵盖金融、健康、贸易、区域合作、LGBT等各方面内容。

21.IMF Economic Data

一个非常有用的信息来源,包括全球金融稳定报告、区域经济报告、国际金融统计、汇率、贸易等内容。

22.UN Comtrade Database

联合国贸易数据库,包含详细的全球贸易数据,所有数据都可以通过API访问。

23.Global Financial Data

全球金融数据(Global Financial Data)拥有覆盖300多年的超过6万家企业的数据,为分析全球经济的波动提供了独特的来源。

24.Google Finance

包含实时股票报价和相应图表,以及财经新闻、货币兑换和跟踪投资组合信息。

25.Google Public Data Explorer

Google的公共数据资源管理器提供世界银行、亚太经合组织、欧盟统计局和丹佛大学等一系列国际组织和学术机构的公共数据和预测。

26.U.S. Bureau of Economic Analysis

美国官方的宏观经济和行业统计,其中最知名的是有关美国GDP的统计。他们还提供关于个人收入、企业利润和政府支出的信息。

27.Financial Data Finder at OSU

世界银行公开数据、全球金融数据、国际货币基金组织(IMF)统计数据。

28.National Bureau of Economic Research

宏观数据、行业数据、生产力数据、贸易数据、国际金融数据等等。

29.U.S. Securities and Exchange Commission

美国证券交易委员会,包含公司财务报告的季度数据集。

30.Visualizing Economics

一些可视化的经济数据。

31.Financial Times

知名金融媒体“金融时报”关于全球商业圈的一些信息、新闻和服务。

免费数据集:市场和社交媒体

32.Amazon API

按类别浏览Amazon Web Services的公共数据集以获取大量信息,Amazon API Gateway允许开发人员将移动应用程序和Web应用程序安全地连接到在Amazon Web(AWS)Lambda。

33.American Society of Travel Agents

ASTA是全球最大的旅游专业协会。它提供会员信息,包括旅行社和他们销售产品的公司,如旅游、邮轮、酒店、汽车租赁等。

34.Social Mention

这是一个社交媒体搜索和分析平台,整合了其所有用户信息。

35.Google Trends

谷歌趋势显示一个特定搜索词在世界各地的搜索频率。

36.Facebook API

使用Graph API并从Facebook中检索数据。

37.Twitter API

从Twitter上抓取数据的神器。

38.Instagram API

从Instagram上抓取数据。

39.Foursquare API

这可以说是一个全球地理信息位置的数据集,你可以用他和附近的人互动。

40.HubSpot

一个大型的营销数据库,你可以在这里找到最新的营销数据和趋势。

41.Moz

提供关键词、页面优化等优化信息,帮助提高网站在搜索引擎上的排名。

42.Content Marketing Institute

内容营销的最新消息和研究。

免费数据集:新闻和媒体

43.The New York Times Developer Network

从1851年到今天的纽约时报的文章,你还可以搜索书评、纽约活动列表、电影评论、图像和更多的热门新闻。

44.Associated Press API

AP Content API允许您使用自己的编辑工具搜索和下载内容,而无需访问AP门户,它的内容包括第三方图片和视频。

45.Google Books Ngram Viewer

这是一个在线搜索工具,你可以用它查询任何一个或几个词在过去500年内在书籍中的出现频率变化趋势。

46.Wikipedia Database

维基百科的数据库。

47.FiveThirtyEight

这是一个专注于民意测验分析、政治、经济和体育博客的网站,它有Github。

48.Google Scholar

Google学术搜索是一个可以免费搜索学术文章的网络搜索引擎。

免费数据集:房地产

49.Castles

住宅销售、出租和管理,以及调查和估价。

50.Realestate.com

针对首次购房者的各种资料信息汇总。

51.Gumtree

购买和出售物品、汽车、物业服务等资讯。

52.James Hayward

住宅销售、出租和管理创新。

53.Lifull Home’s

日本的房地产网站。

54.Immobiliare.it

意大利的物业网站。

55.Subito

意大利的物业网站。

56.Immoweb

比利时行业领先的物业网站。

免费数据集:商业目录和评论


57.LinkedIn

LinkedIn是一个商业和就业导向的社交网络服务平台,在200个国家有5亿会员,你可以下载它的商业目录。

58.OpenCorporates

OpenCorporates是世界上最大的公司和公司数据的开放数据库,专门审查公司腐败、洗钱和有组织犯罪等问题。

59.Yellowpages

黄页,查找当地管道工、机械师、律师、牙医等人的搜索工具。

60.Craigslist

Craigslist是一个美国分类广告网站,专为就业、住房、交友、交易、产品、服务、社区、演唱会、简历和论坛做广告。

61.GAF Master Elite Contractor

GAF成立于1886年,是北美地区最大的商业和住宅屋面制造商,它提供了一些行业领先的专业知识和屋面解决方案。

62.CertainTeed

美国、加拿大建造承包商、装修商、安装服务提供者、建筑商名录。

63.Companies in California

美国加利福尼亚州的所有公司信息。

64.Manta

提供各行各业的企业、行业细分市场和特定区域的产品、服务和教育数据。

65.EU-Startups

欧盟创业公司目录。

66.Kansas Bar Association

律师名录。堪萨斯律师协会(KBA)成立于1882年,是一个专业的法律专业人士协会,拥有7000多名成员,包括律师、法官、法学学生和律师助理。

免费数据集:其他门户网站

67.Capterra

关于商业软件及其评论的数据

68.Monster

工作和就业机会的数据。

69.Glassdoor

员工关于公司内部待遇、环境情况的评论。

70.The Good Garage Scheme

有关汽车服务、MOT或汽车修理的数据。

71.OSMOZ

有关香水的信息。

72.Octoparse

一个免费的数据提取工具,用于在线收集上面提到的所有网络数据。

原文地址:www.kdnuggets.com/2017/12/big-data-free-sources.html

登录查看更多
6

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
192+阅读 · 2020年3月12日
专知会员服务
27+阅读 · 2020年3月6日
数据标注研究综述,软件学报,19页pdf
专知会员服务
89+阅读 · 2020年2月20日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
99+阅读 · 2019年12月13日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
自然语言处理领域公开数据集
炼数成金订阅号
8+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
资源 | 各领域公开数据集下载
黑龙江大学自然语言处理实验室
5+阅读 · 2017年12月31日
下载 ‖ 十大医疗数据集
机械鸡
103+阅读 · 2017年8月5日
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
6+阅读 · 2016年1月15日
VIP会员
相关VIP内容
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
192+阅读 · 2020年3月12日
专知会员服务
27+阅读 · 2020年3月6日
数据标注研究综述,软件学报,19页pdf
专知会员服务
89+阅读 · 2020年2月20日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
99+阅读 · 2019年12月13日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
相关资讯
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
22+阅读 · 2018年7月28日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
自然语言处理领域公开数据集
炼数成金订阅号
8+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
资源 | 各领域公开数据集下载
黑龙江大学自然语言处理实验室
5+阅读 · 2017年12月31日
下载 ‖ 十大医疗数据集
机械鸡
103+阅读 · 2017年8月5日
Top
微信扫码咨询专知VIP会员