编者按:虽然我们现在已经不再炒作“大数据”这个概念,但在日常生活中,数据的身影无处不在。每一份权威报告都始于客观、干净的数据,而每一个靠谱的ML模型都基于数量可观的训练集……那么,收集数据真的是一件困难的事情吗?
临近年关,论智为关注我们的读者准备了一份数据集“大礼包”。虽然市面上有成千上万个免费数据集,但本文只筛选了2017年更新的70个免费数据集地址,内容涵盖政府、犯罪、医疗、金融、媒体等多个类别,质量过硬有保障。想要DIY模型或分类器的小伙伴不妨换换口味,不要在做图像识别、对象检测这样已经泛滥的项目啦,打造你自己的个性神经网络吧!
另外,本文涉及领域十分广泛,论智在此希望也能给撰写报告的各位帮上一点小忙。各网站地址可点击文末「阅读原文」查看。
1.Data.gov
这是美国政府的一个开放数据平台,内容包括农业、气候、经济、生态系统、教育、能源、金融、医疗、制造业、犯罪、科学研究等方方面面。
2.Data.gov.uk
这里汇聚了英国政府部门、公共机构和地方当局发布的公开数据,内容包括商业、环境、地理、犯罪、政府、就业/福利、国防、教育、医疗、交通运输等。
3.US. Census Bureau
这里是美国政府搜集的一些关于国民生活的统计数据,包括人口、经济、教育、地理等等。
4.The CIA World Factbook
这是美国中情局(CIA)的一本书,涵盖全球267个国家或地区的历史、政府、人口、经济、能源、地理、交通、通讯、军事等问题。
5.Socrata
socrata是一个软件公司,这一点很有趣,它主要为美国政府部门提供一些可视化数据服务,目前超过1200个政府机构已采用了他们的数据。它主张向公民开放数据,所以上面的资源都是公开免费的。
6.European Union Open Data Portal
这称得上是获取欧盟官方机构数据的唯一途径,包含包括地理、地缘政治、金融数据、统计数据、选举结果、法律行为以及犯罪、健康、环境、运输和科学研究等各方面的数据。它提供了一种标准化的目录,支持一些web工具、SPARQL端点查询编辑器和其他API访问。
7.Canada Open Data
这是一个包含加拿大政府服务、财务、国家人口信息和高分辨率地图的数据集平台。
8.Datacatalogs.org
提供来自美国、欧盟、加拿大、CKAN等的公开政府数据。
9.U.S. National Center for Education Statistics
国家教育统计中心(NCES)是收集和分析美国和其他国家有关教育数据的机构。
10.UK Data Service
这里主要包括英国政府资助的一些调查项目,有跨国调查、纵向研究、英国人口普查数据、商业数据等。
11.Uniform Crime Reporting
UCR计划一直是执法人员、刑事司法学者、研究人员、媒体和广大公众寻求国内犯罪信息的主流平台。
12.FBI Crime Statistics
UCR下的一个子类,是FBI专门搜集的犯罪数据统计,包括基于种族、性别、性别认同、宗教信仰、残疾、性取向和种族歧视的犯罪行为和犯罪动机。
13.Bureau of Justice Statistics
包含关于美国司法系统的任何信息,包括与逮捕有关的死亡事件、监狱囚犯普查、DNA犯罪普查、执法单位调查等。
14.National Sex Offender Search
包含全美犯罪数据,会实时更新每个辖区的最新案情。
15.U.S. Food & Drug Administration
可下载美国FDA毒品情况压缩文件。
16.UNICEF
联合国儿童基金会官网,可下载全球数百万儿童的生存、发展情况。
17.World Health Organisation
世界卫生组织官网,可下载关于150多个国家人民的营养、疾病和健康统计情况。
18.Healthdata.gov
美国125年来的医疗数据,包括索赔级别的医疗保险数据、流行病学和人口统计。
19.NHS Health and Social Care Information Centre
来自英国国家卫生服务机构的健康数据集。该组织编制了260多份官方和国家统计出版物。其中包括从长期的“医院情况统计”中发展而来的国家二级用药比较数据,可以帮助当地决策者提高一线护理的质量和效率。
20.World Bank Open Data
世界银行开放数据库,涵盖金融、健康、贸易、区域合作、LGBT等各方面内容。
21.IMF Economic Data
一个非常有用的信息来源,包括全球金融稳定报告、区域经济报告、国际金融统计、汇率、贸易等内容。
22.UN Comtrade Database
联合国贸易数据库,包含详细的全球贸易数据,所有数据都可以通过API访问。
23.Global Financial Data
全球金融数据(Global Financial Data)拥有覆盖300多年的超过6万家企业的数据,为分析全球经济的波动提供了独特的来源。
24.Google Finance
包含实时股票报价和相应图表,以及财经新闻、货币兑换和跟踪投资组合信息。
25.Google Public Data Explorer
Google的公共数据资源管理器提供世界银行、亚太经合组织、欧盟统计局和丹佛大学等一系列国际组织和学术机构的公共数据和预测。
26.U.S. Bureau of Economic Analysis
美国官方的宏观经济和行业统计,其中最知名的是有关美国GDP的统计。他们还提供关于个人收入、企业利润和政府支出的信息。
27.Financial Data Finder at OSU
世界银行公开数据、全球金融数据、国际货币基金组织(IMF)统计数据。
28.National Bureau of Economic Research
宏观数据、行业数据、生产力数据、贸易数据、国际金融数据等等。
29.U.S. Securities and Exchange Commission
美国证券交易委员会,包含公司财务报告的季度数据集。
30.Visualizing Economics
一些可视化的经济数据。
31.Financial Times
知名金融媒体“金融时报”关于全球商业圈的一些信息、新闻和服务。
32.Amazon API
按类别浏览Amazon Web Services的公共数据集以获取大量信息,Amazon API Gateway允许开发人员将移动应用程序和Web应用程序安全地连接到在Amazon Web(AWS)Lambda。
33.American Society of Travel Agents
ASTA是全球最大的旅游专业协会。它提供会员信息,包括旅行社和他们销售产品的公司,如旅游、邮轮、酒店、汽车租赁等。
34.Social Mention
这是一个社交媒体搜索和分析平台,整合了其所有用户信息。
35.Google Trends
谷歌趋势显示一个特定搜索词在世界各地的搜索频率。
36.Facebook API
使用Graph API并从Facebook中检索数据。
37.Twitter API
从Twitter上抓取数据的神器。
38.Instagram API
从Instagram上抓取数据。
39.Foursquare API
这可以说是一个全球地理信息位置的数据集,你可以用他和附近的人互动。
40.HubSpot
一个大型的营销数据库,你可以在这里找到最新的营销数据和趋势。
41.Moz
提供关键词、页面优化等优化信息,帮助提高网站在搜索引擎上的排名。
42.Content Marketing Institute
内容营销的最新消息和研究。
43.The New York Times Developer Network
从1851年到今天的纽约时报的文章,你还可以搜索书评、纽约活动列表、电影评论、图像和更多的热门新闻。
44.Associated Press API
AP Content API允许您使用自己的编辑工具搜索和下载内容,而无需访问AP门户,它的内容包括第三方图片和视频。
45.Google Books Ngram Viewer
这是一个在线搜索工具,你可以用它查询任何一个或几个词在过去500年内在书籍中的出现频率变化趋势。
46.Wikipedia Database
维基百科的数据库。
47.FiveThirtyEight
这是一个专注于民意测验分析、政治、经济和体育博客的网站,它有Github。
48.Google Scholar
Google学术搜索是一个可以免费搜索学术文章的网络搜索引擎。
49.Castles
住宅销售、出租和管理,以及调查和估价。
50.Realestate.com
针对首次购房者的各种资料信息汇总。
51.Gumtree
购买和出售物品、汽车、物业服务等资讯。
52.James Hayward
住宅销售、出租和管理创新。
53.Lifull Home’s
日本的房地产网站。
54.Immobiliare.it
意大利的物业网站。
55.Subito
意大利的物业网站。
56.Immoweb
比利时行业领先的物业网站。
LinkedIn是一个商业和就业导向的社交网络服务平台,在200个国家有5亿会员,你可以下载它的商业目录。
58.OpenCorporates
OpenCorporates是世界上最大的公司和公司数据的开放数据库,专门审查公司腐败、洗钱和有组织犯罪等问题。
59.Yellowpages
黄页,查找当地管道工、机械师、律师、牙医等人的搜索工具。
60.Craigslist
Craigslist是一个美国分类广告网站,专为就业、住房、交友、交易、产品、服务、社区、演唱会、简历和论坛做广告。
61.GAF Master Elite Contractor
GAF成立于1886年,是北美地区最大的商业和住宅屋面制造商,它提供了一些行业领先的专业知识和屋面解决方案。
62.CertainTeed
美国、加拿大建造承包商、装修商、安装服务提供者、建筑商名录。
63.Companies in California
美国加利福尼亚州的所有公司信息。
64.Manta
提供各行各业的企业、行业细分市场和特定区域的产品、服务和教育数据。
65.EU-Startups
欧盟创业公司目录。
66.Kansas Bar Association
律师名录。堪萨斯律师协会(KBA)成立于1882年,是一个专业的法律专业人士协会,拥有7000多名成员,包括律师、法官、法学学生和律师助理。
67.Capterra
关于商业软件及其评论的数据
68.Monster
工作和就业机会的数据。
69.Glassdoor
员工关于公司内部待遇、环境情况的评论。
70.The Good Garage Scheme
有关汽车服务、MOT或汽车修理的数据。
71.OSMOZ
有关香水的信息。
72.Octoparse
一个免费的数据提取工具,用于在线收集上面提到的所有网络数据。
原文地址:www.kdnuggets.com/2017/12/big-data-free-sources.html