作者:Yiqin Fu
分析社会、行业都都需要数据。在这里我简单总结一下我用过的方法。方法肯定不全,也不一定适用于所有领域,欢迎大家批评与补充。
注:下面说的“数据”指的是描述社会活动的原始数据,来自大范围统计和调查,不包括分析类数据(例如市场规模估算、行业增长预计等)。
获取数据的方法我分为三类:网上下载、电话索取、自己生产。
搜索引擎搜索
不管是中国还是外国数据,都推荐使用 Google 搜索,推荐用你会的所有语言各搜一次,结果页面多翻几页,可能会有意想不到的效果
一般搜到的都是政府或国际组织网站(例如国家旅游局、世界银行),这类数据的好处是来源可靠、一键下载,坏处是通常只有综合数据(不会细分到地区、个人,不会细分到每月、每天),很多还缺历史数据(只有当天、当月数据)
如果搜到的是论坛里的帖子,请一定核实数据来源,否则很容易以讹传讹;需要论坛币的资源先别急着买论坛币下载,很多其实都可以通过下面提到的方法拿到
如果搜到的是媒体报道或转载,请一定核实数据来源;媒体水平参差不齐,中文媒体很多不标注数据来源,使用的时候要特别小心
政府网站数据库
很多政府网站都有数据库,收录比较详细的数据(细分到地区、过去十年数据等);数据库本身的展示方式决定了它们通常不容易直接搜到,需要你去网站自己查阅
统计部门的网站上没有,可以试试其他部门网站(弄清政府各部门职能很重要);中央政府网站没有,可以试试地方网站(弄清行政区划很重要)
如果找到了你要的数据(例如统计年鉴)但无法直接下载,可以去图书馆借阅,也可以请你在大学或大公司的朋友帮忙借阅;年鉴通常有电子版(光盘),只是格式通常不是你想要的,需要后期清洗
国内外由政府、学术机构主导的调查
搜索“中国 家庭 收入 调查”几个关键词,就可以搜到相关调查;注意看组织方是谁——靠谱的调查通常由科研人员主导,方法公开且相对规范
在收入、教育、健康、价值观等各领域,国际组织和各国大学都会做长期调查,方法全球统一,方便跨国、跨时间比较
此类数据可能会提供免费的线上阅览版,对做 PPT 来说这些数据通常够用;如果需要原始数据,调查方可能需要核实你的身份及研究目的,整个核实过程短则一天长则一个月
私人机构调查(“基金会”、“民调中心”、“大数据公司”)
私人机构在诚信、专业水平上良莠不齐,需要谨慎鉴别;如果只是做 PPT 可能够用;做学术研究,需要确认调查方法是否科学、调查机构是否靠谱;至于去哪里找靠谱的调查,一个捷径是多阅读文献,看知名作者引用过哪些
绝大多数私人机构都不会公开原始数据,所以一般能接触到的只有机构官方发布的报告、博客文章等
学术期刊数据库
很多期刊现在都要求作者公开原始数据,方便重复论文结果。所以期刊网站有每篇论文的配套数据,包括论文作者清洗过的公开数据和作者自己做的调查、实验数据
此类数据只能按论文标题搜到,所以如果不读文献的话很难直接在搜索引擎上按关键字找到
网上找不到的资料,可以试试直接给数据来源方打电话;幸运的话,他们的资料可以直接公布在网上、私下发给你、现场让你阅览
电话索取想要成功,关键在于你要绕过接线前台、直接找到管理数据的人;这个步骤的难易程度又取决于你和数据来源方的关系:
向政府机构索要数据,一定要找到分管统计的部门(网上找分机号或直接请前台转接)。如果找错部门,对方要么会说他们不管此事然后挂断,要么给你转分机再转分机,一天就这么过去了
除了找对人,还要做好打持久战的准备,预留足够时间。统计部门的电话接通后,你很可能得到以下答复:今天马上要下班了;政府在罢工;办公室唯一管这件事的同事现在在休假,下个月才能回来;你要的数据得请示领导同意,而领导在出差,也不知道什么时候回来;申请数据需要填写表格,政府确认你的申请需要一个月,答复需要三个月
“你留个电话,有消息我们打给你”这类回复是永远不能相信的。你需要在电话里问清对方姓名,买一张无限通话的电话卡,过一段时间主动打过去,指名找他
如果你想向业内公司打探行情但又无法提供任何好处,请一定要搞清楚公司内部结构,电话里客气地直接要求找负责该业务的人(最好是直接报上对方姓名或分机号),避免和前台纠缠太久
一定要准备好你的各类信息,例如联系方式、办公地址、老板姓名等,以便回答电话那头的问题;如果是替雇主打电话,一定要向老板确认能否在电话里表明你的身份
电话那头如果无法现在给你答复,一定要在挂断前确认对方姓名及下次跟进的时间
常听人说“上班前、下班后打电话可以绕过前台直接找到老板”,在实践中我还没发现这样做有用,可能公司与公司不同吧
如果你是记者或生意伙伴(即可以给对方提供曝光、投资等好处),可以直接请前台转公关、商务负责人
如果以后经常需要对方的信息,最好能和某位公关、商务建立长期关系
你可以给数据来源方提供好处
数据来源方与你毫无关联
数据来源方应该提供数据,但并不理你
不管是打什么电话,成功主要靠厚脸皮和耐心。上午打不通就下午打;这次接电话的人不理你,过会儿打说不定是另一个人接;这家公司不行就换别家
在一些情况下,数据是可以自己生产的,通过抓取网页、调查、实验三种方法
什么情况下可以抓网页?如果我们需要的就是网络数据(电商商品价格、电影评分、社交媒体好友关系),又或者线上活动是很好的代理变量(量化一个不可观测的变量)
怎样抓取?如果是主流网站,搜索“网站名 抓取”或“网站名 爬虫”,把搜索结果的时间限定调成“一年以内”,就能找到一步一步的教学;如果是小众网页,可以看看网页结构然后搜索教学帖;现在也可以雇人写脚本,过程方便且价格可以接受
抓取网页
调查
(社会科学)实验不一定需要很多钱。例如很多研究歧视的实验,只需要研究人员向大学、公司群发简历即可;很多研究政府的实验,只需要向议员写信即可;研究社交媒体的实验,只需要写程序来发帖即可
虽然没有钱,但我们有很多时间。教授要付钱请人做的事,我们多花点时间、和其他钱少时间多的人合作,说不定也可以做出来
如果你有技术但没有钱,可以和有资金的前辈合作,可以向政府或非政府机构提供免费咨询、分析,以换取数据。当然,这个方法还是很靠“关系”
“关系”如果真的够硬,可以让一国总统直接按你说的方法做实验
很多时候,调查其实并不需要那么多钱,尤其是网络调查。真正困难的地方在于调查设计。如果没有读过专业书籍或积累实战经验,第一次做调查很难保证设计得科学
实验
设计研究方案的时候,要先从“理想状态”出发——问自己,能够回答我研究问题的“最理想的数据”长什么样?是个人、家庭、公司、省还是国家层面的数据,有哪些变量,是哪个时间段的……
只有想明白理想数据长什么样,才可以开始搜索、采集。因为这样你可以最快找到近似理想的数据,也可以最快发现找到的数据有哪些局限、对你研究最后得到的结论有哪些影响。
时间规划方面,一定要给数据搜集预留充分的时间。很多时候你可能计划用一周搜集数据,另一周分析。你以为你要的数据网上肯定有,几秒钟就可以下载完,给一周时间绰绰有余。
然而事实上,很多数据根本不存在(电脑普及之前的资料很多地方都没有保存);如果有,对方也不一定会给你;对方给了你,也一定不是你拿到手就可以立刻分析的格式。所以时间规划上一定不要盲目乐观。通常一个项目,70% 甚至 90% 的时间都花在“准备工作”上。
End.