从哪里可以免费、低成本获得靠谱的数据?

2017 年 7 月 5 日 ITS专业大数据

作者:Yiqin Fu

分析社会、行业都都需要数据。在这里我简单总结一下我用过的方法。方法肯定不全,也不一定适用于所有领域,欢迎大家批评与补充。

注:下面说的“数据”指的是描述社会活动的原始数据,来自大范围统计和调查,不包括分析类数据(例如市场规模估算、行业增长预计等)。

获取数据的方法我分为三类:网上下载、电话索取、自己生产。

网上下载

  • 搜索引擎搜索

    • 不管是中国还是外国数据,都推荐使用 Google 搜索,推荐用你会的所有语言各搜一次,结果页面多翻几页,可能会有意想不到的效果

    • 一般搜到的都是政府或国际组织网站(例如国家旅游局、世界银行),这类数据的好处是来源可靠、一键下载,坏处是通常只有综合数据(不会细分到地区、个人,不会细分到每月、每天),很多还缺历史数据(只有当天、当月数据)

    • 如果搜到的是论坛里的帖子,请一定核实数据来源,否则很容易以讹传讹;需要论坛币的资源先别急着买论坛币下载,很多其实都可以通过下面提到的方法拿到

    • 如果搜到的是媒体报道或转载,请一定核实数据来源;媒体水平参差不齐,中文媒体很多不标注数据来源,使用的时候要特别小心

  • 政府网站数据库

    • 很多政府网站都有数据库,收录比较详细的数据(细分到地区、过去十年数据等);数据库本身的展示方式决定了它们通常不容易直接搜到,需要你去网站自己查阅

    • 统计部门的网站上没有,可以试试其他部门网站(弄清政府各部门职能很重要);中央政府网站没有,可以试试地方网站(弄清行政区划很重要)

    • 如果找到了你要的数据(例如统计年鉴)但无法直接下载,可以去图书馆借阅,也可以请你在大学或大公司的朋友帮忙借阅;年鉴通常有电子版(光盘),只是格式通常不是你想要的,需要后期清洗

  • 国内外由政府、学术机构主导的调查

    • 搜索“中国 家庭 收入 调查”几个关键词,就可以搜到相关调查;注意看组织方是谁——靠谱的调查通常由科研人员主导,方法公开且相对规范

    • 在收入、教育、健康、价值观等各领域,国际组织和各国大学都会做长期调查,方法全球统一,方便跨国、跨时间比较

    • 此类数据可能会提供免费的线上阅览版,对做 PPT 来说这些数据通常够用;如果需要原始数据,调查方可能需要核实你的身份及研究目的,整个核实过程短则一天长则一个月

  • 私人机构调查(“基金会”、“民调中心”、“大数据公司”)

    • 私人机构在诚信、专业水平上良莠不齐,需要谨慎鉴别;如果只是做 PPT 可能够用;做学术研究,需要确认调查方法是否科学、调查机构是否靠谱;至于去哪里找靠谱的调查,一个捷径是多阅读文献,看知名作者引用过哪些

    • 绝大多数私人机构都不会公开原始数据,所以一般能接触到的只有机构官方发布的报告、博客文章等

  • 学术期刊数据库

    • 很多期刊现在都要求作者公开原始数据,方便重复论文结果。所以期刊网站有每篇论文的配套数据,包括论文作者清洗过的公开数据和作者自己做的调查、实验数据

    • 此类数据只能按论文标题搜到,所以如果不读文献的话很难直接在搜索引擎上按关键字找到

电话索取

  • 网上找不到的资料,可以试试直接给数据来源方打电话;幸运的话,他们的资料可以直接公布在网上、私下发给你、现场让你阅览

  • 电话索取想要成功,关键在于你要绕过接线前台、直接找到管理数据的人;这个步骤的难易程度又取决于你和数据来源方的关系:

    • 向政府机构索要数据,一定要找到分管统计的部门(网上找分机号或直接请前台转接)。如果找错部门,对方要么会说他们不管此事然后挂断,要么给你转分机再转分机,一天就这么过去了

    • 除了找对人,还要做好打持久战的准备,预留足够时间。统计部门的电话接通后,你很可能得到以下答复:今天马上要下班了;政府在罢工;办公室唯一管这件事的同事现在在休假,下个月才能回来;你要的数据得请示领导同意,而领导在出差,也不知道什么时候回来;申请数据需要填写表格,政府确认你的申请需要一个月,答复需要三个月

    • “你留个电话,有消息我们打给你”这类回复是永远不能相信的。你需要在电话里问清对方姓名,买一张无限通话的电话卡,过一段时间主动打过去,指名找他

    • 如果你想向业内公司打探行情但又无法提供任何好处,请一定要搞清楚公司内部结构,电话里客气地直接要求找负责该业务的人(最好是直接报上对方姓名或分机号),避免和前台纠缠太久

    • 一定要准备好你的各类信息,例如联系方式、办公地址、老板姓名等,以便回答电话那头的问题;如果是替雇主打电话,一定要向老板确认能否在电话里表明你的身份

    • 电话那头如果无法现在给你答复,一定要在挂断前确认对方姓名及下次跟进的时间

    • 常听人说“上班前、下班后打电话可以绕过前台直接找到老板”,在实践中我还没发现这样做有用,可能公司与公司不同吧

    • 如果你是记者或生意伙伴(即可以给对方提供曝光、投资等好处),可以直接请前台转公关、商务负责人

    • 如果以后经常需要对方的信息,最好能和某位公关、商务建立长期关系

    • 你可以给数据来源方提供好处

    • 数据来源方与你毫无关联

    • 数据来源方应该提供数据,但并不理你

  • 不管是打什么电话,成功主要靠厚脸皮和耐心。上午打不通就下午打;这次接电话的人不理你,过会儿打说不定是另一个人接;这家公司不行就换别家

自己生产

  • 在一些情况下,数据是可以自己生产的,通过抓取网页、调查、实验三种方法

    • 什么情况下可以抓网页?如果我们需要的就是网络数据(电商商品价格、电影评分、社交媒体好友关系),又或者线上活动是很好的代理变量(量化一个不可观测的变量)

    • 怎样抓取?如果是主流网站,搜索“网站名 抓取”或“网站名 爬虫”,把搜索结果的时间限定调成“一年以内”,就能找到一步一步的教学;如果是小众网页,可以看看网页结构然后搜索教学帖;现在也可以雇人写脚本,过程方便且价格可以接受

    • 抓取网页

    • 调查


    • (社会科学)实验不一定需要很多钱。例如很多研究歧视的实验,只需要研究人员向大学、公司群发简历即可;很多研究政府的实验,只需要向议员写信即可;研究社交媒体的实验,只需要写程序来发帖即可

    • 虽然没有钱,但我们有很多时间。教授要付钱请人做的事,我们多花点时间、和其他钱少时间多的人合作,说不定也可以做出来

    • 如果你有技术但没有钱,可以和有资金的前辈合作,可以向政府或非政府机构提供免费咨询、分析,以换取数据。当然,这个方法还是很靠“关系”

    • “关系”如果真的够硬,可以让一国总统直接按你说的方法做实验

    • 很多时候,调查其实并不需要那么多钱,尤其是网络调查。真正困难的地方在于调查设计。如果没有读过专业书籍或积累实战经验,第一次做调查很难保证设计得科学


    • 实验

“理想数据”与时间规划

设计研究方案的时候,要先从“理想状态”出发——问自己,能够回答我研究问题的“最理想的数据”长什么样?是个人、家庭、公司、省还是国家层面的数据,有哪些变量,是哪个时间段的……

只有想明白理想数据长什么样,才可以开始搜索、采集。因为这样你可以最快找到近似理想的数据,也可以最快发现找到的数据有哪些局限、对你研究最后得到的结论有哪些影响。

时间规划方面,一定要给数据搜集预留充分的时间。很多时候你可能计划用一周搜集数据,另一周分析。你以为你要的数据网上肯定有,几秒钟就可以下载完,给一周时间绰绰有余。

然而事实上,很多数据根本不存在(电脑普及之前的资料很多地方都没有保存);如果有,对方也不一定会给你;对方给了你,也一定不是你拿到手就可以立刻分析的格式。所以时间规划上一定不要盲目乐观。通常一个项目,70% 甚至 90% 的时间都花在“准备工作”上。

End.


登录查看更多
0

相关内容

互联网
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
153+阅读 · 2020年6月12日
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
195+阅读 · 2020年5月2日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
智能交通大数据最新论文综述-附PDF下载
专知会员服务
104+阅读 · 2019年12月25日
【电子书】让 PM 全面理解深度学习 65页PDF免费下载
专知会员服务
17+阅读 · 2019年10月30日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
硬核| 在麦肯锡,行研和数据分析要这么做!
行业研究报告
20+阅读 · 2019年3月26日
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
“我今年36岁了,除了收费啥也不会!”
创业邦杂志
4+阅读 · 2018年1月14日
资源 | 各领域公开数据集下载
黑龙江大学自然语言处理实验室
5+阅读 · 2017年12月31日
一个人的企业安全建设之路
FreeBuf
5+阅读 · 2017年7月7日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
12+阅读 · 2019年2月28日
Arxiv
12+阅读 · 2018年9月5日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
153+阅读 · 2020年6月12日
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
195+阅读 · 2020年5月2日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
智能交通大数据最新论文综述-附PDF下载
专知会员服务
104+阅读 · 2019年12月25日
【电子书】让 PM 全面理解深度学习 65页PDF免费下载
专知会员服务
17+阅读 · 2019年10月30日
相关资讯
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
硬核| 在麦肯锡,行研和数据分析要这么做!
行业研究报告
20+阅读 · 2019年3月26日
资源 | 机器学习高质量数据集大合辑(附链接)
数据派THU
6+阅读 · 2018年11月25日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
“我今年36岁了,除了收费啥也不会!”
创业邦杂志
4+阅读 · 2018年1月14日
资源 | 各领域公开数据集下载
黑龙江大学自然语言处理实验室
5+阅读 · 2017年12月31日
一个人的企业安全建设之路
FreeBuf
5+阅读 · 2017年7月7日
相关论文
Arxiv
5+阅读 · 2019年11月22日
Arxiv
12+阅读 · 2019年2月28日
Arxiv
12+阅读 · 2018年9月5日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
3+阅读 · 2017年12月18日
Top
微信扫码咨询专知VIP会员