2012 年 2 月,纽约时报周日评论(Sunday Review)版块一篇题为“大数据时代(The Age of Big Data)”的文章预示着人类新时代的到来。文章说,人类社会即将迎来一场巨大的变革,大数据将会改变人类的生活。数据分析不再局限在表格上,随着计算能力的增强,以及与互联网相连接的传感器不断地将记录的数据发送到云端,Micheal Lewis 在 2003 年出版的“Moneyball”一书中所描述的高级分析技术可以被应用到人类社会的各个领域,从商业到学术、医疗,甚至是人类的情感世界。不仅如此,强大的数据分析软件还可以识别出事物之间超乎我们想象的联系,比如一个使用大写字母的借款人与他的违约行为可能性之间存在某种联系。这种看似神奇的洞见改变了我们对事物的看法。
纽约时报并非第一家得出该结论的媒体,在 2011 年麦肯锡的一份报告以及 2012 年达沃斯世界经济论坛上一份题为“大数据,大影响(Big Data,Big Impact)”的报告中都提到了这个观点。媒体的大肆宣传通常预示着一个新时代的开始。次月,奥巴马政府启动了一个两亿美元的大数据计划,这一举动迎来了一场躁动:大学、非盈利组织、政府和商业公司争先恐后地站出来,试图解释什么是“大数据”以及他们将如何利用大数据。
躁动是短暂的。五年之后,大数据确实在我们的生活中扮演了重要的角色,但“大数据”这个词却不再时髦,甚至招来了少许不好的名声。所以,我们很有必要回顾一下大数据在发展过程中都发生了什么,以及数据分析和算法将何去何从。
Gartner 公司在 2015 年的“炒作周期”报告中将大数据拿掉,之后就没有再放回去过。Gartner 公司解释说,这并不是说其他公司放弃了大数据,而是因为这项技术已经很普遍了,没有必要继续给它打上“新兴技术”的标签。大数据让算法变得更强大,新闻源、推荐系统、自动股票交易、自动纠错系统、健康跟踪等,它们都依赖大数据和算法。只不过我们现今似乎很少再提及“大数据”这一词,而是直接叫它们“数据”。我们开始理所当然地认为数据集当中深藏不计其数的洞见,可以通过强大的软件来挖掘它们。
在 Cathy O'Neil 于 2016 年出版的“Weapons of Math Destruction”和 Frank Pasquale 于 2015 年出版的“The Black Box Society”中,“大数据”一词开始带有贬义的色彩。匆忙之中通过所谓的“数据驱动决策”来应用大数据技术只会犯下大错。
这里有一些很明显的事实:Target 公司向还没有对外宣告自己已怀孕的年轻女孩家庭发送婴儿用品券,Pinterest 给还未正式举行婚礼的单身女性送上祝福,Google Photos 因为训练数据不足导致将黑人误认为是黑猩猩。
还有其他一些很隐晦的情况,比如 O'Neil 在她的书中所提到的那些模型:法庭使用带有种族偏见的再犯模型(recidivism model)来审判罪犯;学校基于一些带有争议性的分数模型解雇有爱心的教师。
“大数据”的问题不在于数据本身,如果我们能够小心地应用大数据技术,就可以发现海量数据中隐藏的趋势。Julia Rose West 最近在 Slate 上写道,大数据的问题在于盲目的数据崇拜和滥用,这将把我们推向灾难的深渊。
大数据本身具有不易解释的特点。在收集了数以亿计的数据点之后——网页的点击或鼠标指针的位置、十字旋转门的旋转、世界各地每小时风速、推文——这些数据点开始变得模糊不清。这意味着我们从数据中看到的高层次的趋势有可能是非自然的洞见。更重要的是,我们所拥有的数据有可能只是我们想了解问题的代理,大数据本身不会解决问题,只会放大问题。
例如,民意调查被用于预测选民在实际选举中的表现。但过去的一些意外的选举结果却在告诉我们——从 1982 年 Tom Bradley 在加州州长选举中失利到 Brexit 和 Trump 之间的选举竞争——民意调查和实际投票之间并不存在完美的关联性。Facebook 根据用户是否单击页面上的“喜欢”按钮来判断用户对网页内容感兴趣与否,但随着标题党、求赞帖和婴儿图片的大量出现,他们逐渐意识到那些所谓的“喜欢”并不真实。
真实问题与代理之间的差距越大就越危险。以 O'Neil 书中所述的模型为例:校方通过数学模型将对教师的评估与学生的考试分数关联起来。但影响考试分数的因数有很多,并非都是老师所能控制的。大数据的迷人之处在于,借助海量数据和强大的算法,我们可以从大数据中找到有意义的关联性,即使数据中包含了大量噪音。O'Neil 所描述的模型利用多个地区和系统学生之间的关系生成了一系列“预期”的考试分数,并把学生的实际考试成绩与它们进行对比。
现在试想一下,如果将这种模型应用在单个学校中,那么每个年级的老师只能与其他年级的老师展开对比。没有了大数据,学生的考试分数就会表现出很明显的差异。没有人会认为这只与学生的能力有关,而让教师置身事外。而且,要找出背后的原因也相对容易。
该系统的实现使用了大数据集,需要由第三方咨询机构使用专利数据模型进行评估。虽然这样具有一定的客观性,但也阻碍了我们了解模型是如何得出相关结论的。O'Neil 的分析指出,一些教师可能会得到较低的分数,并不是因为他们的学生表现很差,而是因为学生在去年表现太好了——或许之前有些老师为了提高自己的得分而捏造数据。
当然,这并不是说我们要忽视学生考试分数、民意调查、内容排名算法或重犯预测模型。除了远离数据或退回到依赖直觉的时代,我们至少还有两种可行的方式可以用于解决数据集与现实产出之间不完美的关系问题。
其中一种就是 moar 数据。长久以来,Facebook 一直在使用这种方案。当 Facebook 意识到用户的“点赞”可能是一种假象的时候,他们开始往模型中加入更多的代理。他们开始考量其他方面的因素,比如用户花了多少时间查看新闻源中的新闻、花了多少时间阅读他们点开的故事、是在阅读之前还是之后点的赞。Facebook 的工程师在优化这些度量指标上付出了很大的努力,但他们发现用户仍然不是很满意。于是 Facebook 添加了更多的度量指标,他们开始使用大型的用户反馈面板,加入了表情包,用户可以借此表达微妙的情绪,他们还开始使用人工智能技术来检测文章中的标题党内容。Facebook 也知道这些代理都是不完美的,但起码通过增加这些代理,可以尽量地做到让用户看到他们想看的内容。
moar 数据的一个不足之处在于,它的门槛高,成本也高。另外,随着不断往模型里加入变量,整个方案会变得越来越复杂、不透明和难以理解。Pasquale 在他的“The Black Box Society”一书中已经提到了这个问题。即使是最完备的算法,配上质量最好的数据集,也仍然会出错,而一旦出了错,诊断起来就几乎是个不可能的任务。这里还存在过拟合(overfit)和盲目自信的风险:你的模型越是复杂,它看起来就越是与你过去的经验相吻合,你就越是会信任它,但最后也可能会给你造成越大的危险(想想次贷危机、选举预测模型和 Zynga)。
另一种方案就是所谓的“小数据(small data)”。小数据指的是简单的数据集,人们可以直接分析它们,不需要使用超级计算机或像 Hadoop 这样的计算集群。就像“慢食物(slow food)”一样,“小数据”是与“大数据”相对应的一种说法。
来自丹麦的作家兼市场顾问 Martin Lindstrom 在 2016 年出版的“Small Data: The Tiny Clues That Uncover Big Trends”一书中就列举了小数据的例子。丹麦玩具制造商乐高在 90 年代末到 2000 年初改用大块积木,包括他们的主题公园和视频游戏。他们基于大量的研究,认为千禧一代(出生于 80 年代和 90 年代的人)更倾向于立即得到满足感,而且容易被简单的玩具吸引。但这种做法并没有奏效。基于数据驱动的方式最终在 2004 年被小规模的市场研究所代替,他们直接问小孩喜欢什么。他们发现,小孩子更喜欢能够展现他们技能的产品,比如一双经过数百个小时滑板而穿旧的运动鞋。于是,乐高又重新用回了小块积木,让它重新焕发出光彩。
亚马孙无处不在地展示着大数据的强大。数以亿计的客户有购买和浏览商品的习惯,由此产生的数据让亚马逊成为世界最为成功的零售商之一。Brad Stone 在他的“The Everything Store”一书中说道,亚马逊 CEO Jeff Bezos 使用一种非常有趣的方式来平衡机器的分析结果。他定期收集一份来自客户的投诉邮件,把它转发给他的执行团队,并要求团队不仅要解决投诉问题,还要调查为什么会发生这个投诉,并总结出一份报告。
这个故事说明 Bezos 心里很清楚大数据不只是给他们的系统带来了效率,同时也隐藏了一些问题。在你基于已了解的事物作出决定时,最安全的做法是同时确保对你不了解的事物保持警惕。O'Neil 在一个电话采访中说道,“问题最终总是归结为——你没有收集到哪些数据?也就是你看不到的那些”。
走出“大数据”的喧嚣,我们才能看清它的优势和不足。通过回顾,我们知道,数据传感器和数据计算能力突飞猛进式的发展为我们迎来了一个淘金热,害怕在竞争中落后的情绪在很多时候会左右我们的注意力和谨慎的态度。有想法的人总是想尽办法吸引我们的眼球,但最后一定会产生反作用力。
如果看过 Gartner 公司 2017 年炒作周期,你会发现“机器学习”和“深度学习”出现在最高的位置,另外还有“自动驾驶”和“虚拟助手”。它们都构建在大数据之上,完全依赖大数据。它们正引领突破性的变革,但我们可以肯定的是,它们也正犯下大错。
阅读英文原文:
http://www.slate.com/articles/technology/technology/2017/10/what_happened_to_big_data.html