福利 | 欢迎进入数据资本时代

2018 年 12 月 16 日 商业周刊中文版

当大数据经济进入数据资本时代，我们的经济社会将发生怎样的改变？海量数据市场将引发市场机制的再次复兴；传统公司的重要性会下降；货币资本衰退，银行将面临“风暴”；人类工作和分配正义会受到严峻挑战……

传统市场将所有信息压缩成一个单一的考量指标——“价格”，并通过货币来传达这一信息。但事实证明，价格和货币只是巧妙的权宜之计。数据作为一种新型润滑脂，将给市场带来巨大的能量。作者认为，赢家是市场，而并非资本。当数据哪怕只是部分地承担了货币的角色时，金融资本就会失去其大部分意义。这一切都将产生巨大影响——不只是对公司和管理者，而且对其他所有市场交易的参与者，包括经理、雇员，还有消费者。

面对如此变局，人类未来应如何选择？舍恩伯格认为，未来人类选择的重点是：我们将会选择是否选择。人类将继续保有个人选择的自由，海量数据市场将帮助我们做出更好的选择，但不会从根本上免除我们需要做出选择的责任。

以下内容摘编自《数据资本时代》。参与文末留言分享活动，就有机会把这本书收入囊中哦！

《数据资本时代》（Reinventing Capitalism in the Age of Big Data）

作者：[奥] 维克托·迈尔-舍恩伯格，[德]托马斯·拉姆什

译者：李晓霞，周涛

出版时间：2018年12月

出版社：中信出版社

定价：58.00元

大数据除了能对我们的生活、工作、思维产生重大变革外，还能够做什么？畅销书《大数据时代》作者舍恩伯格在新书《数据资本时代》中，展示了大数据将如何从根本上改变经济——这并不是因为数据是一种新型石油，而是因为数据是一种新型润滑脂，它将给市场带来巨大能量，给公司带来巨大压力，使金融资本的作用大大削弱。赢家是市场，而并非资本。

这本书在当下国内出版，可以说恰逢其时。时下，中国经济正处于“三化”阶段——速度变化、结构优化、动力转化，大数据、云计算、区块链、人工智能等新科技蓬勃发展，《数据资本时代》对市场与货币、公司与金融、数字化与数据等问题做了新的思考。其对未来饶有兴趣的预测与讨论，有的在时下的中国正在发生，有的可能会在未来的中国以不同的方式涌现。无论正确与否，它们对理解和把握中国经济社会的未来演变都有参考价值。

迎接海量数据市场

正如我们所描述的，市场是一种令人惊异的社会创新，从原则上说，它可以使我们有效地协调彼此的活动，而在实践中，它却受到信息流局限所带来的负面影响。我们依靠金钱和价格来减少需要沟通和处理的信息量，但是信息的浓缩意味着，市场参与者并不总是能够全面地分享他们的个人偏好，或者并不总是能够在决策过程中恰当地权衡他们的个人偏好。价格可能解决了信息过量的问题，但是它让我们做出了糟糕的选择。我们对价格的执着阻碍了市场发挥其最擅长的作用：协调人类活动。

解决这个问题的答案不是数字支付，也不是虚拟货币。这两点可能会加速现有的信息流动，或者使信息流动变得更便宜，但信息仍然会被压缩成价格，那些有价值的细节还是会被消除。这个问题的解决之道不是继续玩弄货币，而是用海量、全面的信息流去替换，或者至少是补充货币的信息角色。数据是市场车轮的新型润滑剂，可以帮助市场参与者找到更好的匹配选项。

因此，传统市场和海量数据市场之间最直接和最明显的区别，就在于流动在市场参与者之间的数据总量和种类。在海量数据市场上，参与者不再被围绕着价格的信息的潺潺细流限制，他们的目标是全面传达关于个人偏好的所有信息，并据此采取行动。同时，参与者会积极利用市场的信息结构，达到以低成本的方式传输数据的目标。

从理论上讲，我们在数字模拟阶段就可以使用更多更丰富的数据了，但是使用成本非常高。多亏了数字网络，现在，大量的数据可以在交易伙伴之间快速、轻松、廉价地流动，无论他们近在咫尺，还是远隔千里。但是，仅仅拓宽数据的传输渠道，虽然有可能克服“信息成本”的挑战，但也很可能导致市场参与者的信息过载。我们如此习惯于关注价格，又怎么能做到跨越多个维度去比较不同产品，从而找到正确的匹配选项？我们怎样才能快速、轻松地表达多种个人偏好 ?

金钱和价格可能是一种信息约束，但是摆脱这种约束，不仅需要不同的信息交流方式，而且需要我们在将信息转化为决策的过程中，实现一些阶段性转变。我们不仅需要大量的数据，而且需要正确的方法和工具来处理这些数据。正是由于缺乏这种方法，在数字时代的最初几十年里，以货币为基础的市场才得以保留。然而，事情正在发生变化。最近，我们在数据处理方面取得的进展，终于使我们能够抛开金钱和价格的限制，敞开怀抱迎接海量数据市场了。

科技与数据结合

三大关键科技，数据本体和标注、个人偏好匹配算法、机器学习系统，对市场的这次重新配置起到了至关重要的作用。这三大科技使我们能够：（1）在比较个人偏好时使用标准语言；（2）在多个维度上更好地匹配个人偏好，选择最佳交易伙伴；（3）设计出一种行之有效的方法，来全面捕获个人偏好信息。这三项科技的共同之处在于，它们都能够帮助我们将海量数据转换为行之有效的交易决策。这三大科技不仅提高了我们基于数据的选择能力，而且这三大科技本身也是建立在数据基础上的——这就是数据的核心作用。这三大科技将成为经济革命的根基。

过去，婴儿潮一代（1946—1964 年出生的人）去度假时，不得不翻阅厚厚的酒店宣传册，还要与旅行社的人见个面，以确定宣传册上那些华丽的营销文字和炫目的照片是否属实。如果有幸认识在某酒店住过的人，他们很可能会按照那个人的建议做出选择——但这只是特例，而不是常态。如今的情况则大为不同。我们在选择酒店时，首先会对海量的信息进行筛选，包括客户评级、记者评论、以前的客人在网络上发布的照片等。我们可以很快地将酒店的位置、便利设施和服务质量进行比较。而且，在谷歌街景的帮助下，我们甚至可以到那里进行一次虚拟的街区旅行。在价格方面，在线比较可以帮助我们很快找到最优价格，及其具体的交易时间和地点。

同样，以价格为基础租赁汽车，或是在价格的基础上寻找拼车的机会，这样的日子也早已一去不复返了。BlaBlaCar 公司在 20 多个国家已经拥有超过 4 000 万名会员，公司允许乘客和司机一起从多个维度进行配对，包括他们自己报告的健谈程度——从 Bla（“看窗外风景匆匆掠过”）到 BlaBlaBla（“聊起来没完没了”），不一而足。因为少有机会协商价格，乘客在选择出行时可能就更关注其他信息了。这种方法吸引了不少爱聊天的人：在我写作本书时，每个月已经有 400 万名乘客通过这家公司约车了。

信息的这种便捷性是令人愉快的，使信息既方便使用，也方便获得（至少在多数情况下如此）。我们旅行的交易效率得到了提高，因为买家和卖家可以更精确地匹配他们各自的偏好。当然，海量数据不仅涌现在旅游业中，当我们在网上购物时，不论买的是书、电子产品，还是衣服，我们除了要考虑能让我们浏览、搜索、比较产品的搜索工具和过滤工具的精确性，还要考虑其他几十种特性。使这一切运转起来的，并不是我们所使用的技术的速度有多快、成本有多低、存储能力有多强，可用信息量的增加也许是原因之一，但是我们之所以能做出更好的选择，更主要的原因是我们使用了一个有效的方法来标记这些信息，并且将其做了分类。

假设要买一件新衬衫，你上网找到你最喜欢的零售网站，点击“衬衫”，网站会提供给你成百上千条选择。但是，通过关注如下诸多因素：尺寸、面料、颜色、合身度、袖子长度、领口类型，甚至品牌，你可以过滤掉一些选择，或者过滤掉那些你不想要的东西，从而选出自己的最爱。所以，你如果想要一件一字领、七分袖、尺寸为8 号、蓝色或蓝绿色，且最好是正在减价促销的棉纱针织衫，就只要做出选择就可以了。如果这个网站没有，你可以转移到另一家零售网站。为你提供这么多关于衬衫的信息，网络零售商是怎么做到的？它们把每件商品都贴上描述其服装特色的数据标签。这就要求商家把所有特定类型的产品，比如衬衫，都贴上同一套类别的标签。这些类别也是数据，但是它们是关于数据的数据，也就是元数据。

这一切并不新鲜。自从亚述人将泥板文献首次贴上描述其内容的标签开始，有关信息的信息就开始成为重中之重。今天，高效的分类已必不可少。没有它，我们几乎无法在网上找到任何东西。然而出于同样的原因，分类的过程也变得更加困难。在只有关系型数据库的旧时代，数据是整洁的，因为每个数据字段都具有明确定义，明确到每个字段的内容都具有精确的格式。然而，自 20 世纪 90 年代末以来，数字信息的指数级增长对这一秩序提出了挑战，其中很大一部分信息并不完全适合于数据库领域，它们以电子邮件、网页、图像、音频文件和视频文件等形式出现。

以 YouTube 为例，它是一个视频内容市场，上传者（卖方）与观众（买方）进行交易，通常由第三方市场参与者（广告商）提供资金。为了确保视频能被观看，观众需要能够轻松地找到内容；出于同样的原因，内容提供者也需要其内容能够被迅速发现。除了视频的标题和上传的日期、时间外，为视频添加标签和关键词也是非常重要的，几乎和上传者选择正确的关键词一样重要。

数据本体和标注策略

商业内容提供商也面临同样的问题。一个体育网站，例如 ESPN（娱乐与体育节目电视网），每周广播并录制成千上万小时的视频录像。尽管有些球迷可能会从头到尾观看一场被存档的体育赛事，但是多数人可能会直接观看某最重要的时刻——在 2016 年 NBA（美国男子职业篮球联赛）总决赛第 7 场中，骑士队反败为胜，勒布朗·詹姆斯的那个决定胜利的追身盖帽；或者在 2004 年美国棒球联盟冠军赛系列赛的第四场中，戴夫·罗伯茨在第九局偷垒，从此打破“贝比鲁斯诅咒”的那个时刻。为了确保这些重要的时刻很容易被找到，ESPN 雇用了几十个人实时观看多个体育赛事，依靠人工，手动标记每场比赛和场上互动。

如果 ESPN 让员工以任何他们想要的方式对视频进行标记，那么它与你在 YouTube 上所看到的随意贴标签的方法就没有太大不同——只是在范围和规模上有所改进。然而，ESPN 的标记人员都接受了有关关键词方面的训练，这让他们学会了使用一个经过深入研究的关键词层次结构。这个领域的专家将其称为“本体论”（ontology），因为标记人员在他们所观看的视频本体上直接做出标注。

ESPN NBA大数据

体育运动很适合本体论系统。每一项运动，从射箭到摔跤，都定义了一系列规则，它们不仅适用于运动员，而且适用于比赛本身。书、电子产品和家电也是如此。它们只要有明确的限定参数集，就更容易让消费者找到最适合的产品。出版商已经有超过一个世纪的将书分为不同类别的经验，你如果想买一本关于美国内战时期的女性史的书，按照杜威十进制分类法或美国国会图书馆分类法，可能很快就会找到这样的一本书。实际上，杰夫·贝佐斯在 1994 年创办网络书店亚马逊的原因之一，就是出版商的季节性书目刚刚实现了数字化，他计划利用这些数据建立自己的公司。

同样是在这些数据的基础上，亚马逊的消费者可以选择、过滤和比较各种消费品，不仅根据品牌、价格和买家的评论，而且可以根据许多其他不太明显的特征。我们拿洗衣机举例，洗衣机的相关信息可以说无所不包：打开方式、颜色、大小。在欧洲的一些市场上，洗衣机的相关信息还会包括负载能力和能源效率。类似的信息维度也存在于其他产品中，如电视、硬盘和微波炉。对电子产品的特征进行标识通常是相对简单的：要么是由制造商向在线零售商提供足够丰富的数据，要么是由在线零售商自己将数据添加在产品上，因为电子产品的本体特征是非常明显的。一般来说，拥有海量产品细分信息的市场，往往更适合那些简单的、公认的本体。

相比之下，为普通市场开发一个本体要困难得多。这就是为什么在 YouTube 上寻找视频要比在亚马逊上购买洗衣机更加随意。我们如何搜索关于一个概念的视频，比如，一个关于翻跟头的视频？YouTube 也不能与 ESPN 所开发的关键词标准在深度和广度上互相匹配，因为人类还没能想出一个易于掌握的通用本体，让每个人都可以迅速理解并完美应用。

长期以来，亿贝一直在努力为其市场挖掘可与其他平台相媲美的信息可发现性，也就是用户找到相关信息的可能性。亚马逊的客户可以非常方便地使用各种信息过滤器，而亿贝的买家却常常不得不在产品标题或产品描述中搜索关键词，然后一页一页地滚动搜索结果。这是亿贝平台的一个历史遗留问题。在亿贝上，任何人都可以出售任何东西，包括那些在很多方面都非常独特的商品，而亚马逊则是从一个单一类别的产品（书籍）销售者做起的，所以它拥有完善的产品本体。随着时间的推移，缺少本体的市场会在交易数量上逐渐减少，因为即使这个对象真实存在，人们也很难找到自己想要的匹配对象。如果没有一个非常好用的过滤器来保障信息的可发现性，市场的效率就会大幅下降。

许多市场的成功，都源于它们能够提供海量的数据流。因此，有效的标注策略及其研发工作就担负着重大的经济责任。作为这方面的数据专家，马蒂·所罗门强调：问题的关键在于找到正确的本体。她知道这会是十分困难的。所罗门说她自己来自“数据的盐矿”——她曾经是迪士尼公司（拥有 ESPN 80% 的股份）的企业命名分类学者，也做过英国培生教育出版集团的数据架构与语义平台的总监。然而所罗门认为，未来，确定正确的本体所需要的人类创造性将会更少，需要更多的是过硬的数据分析：数据本身将驱动数据本体。

了解了我们在多大程度上依赖于正确的标签和分类，以及我们目前的能力相对来说多么有限，我们就很容易理解以下两个“为什么”了：为什么数据本体成为信息技术初创企业所热衷的领域？为什么它也是将基于货币的市场转变为海量数据市场的重要工具？亿贝正在进行的海量数据研究项目的出发点，就是要改进产品的编目，将可发现率从 42% 提高到 90%。为了实现产品信息的自动分类，它已经获得与一些数据本体初创公司（如 Alation、Corrigon 和 Expertmaker 等）合作的机会。其他市场也纷纷效仿，为了使丰富、多维度的信息流动成为可能，它们竞相开始进行数据基础设施建设。没有丰富、多维度的信息流动，市场，无论是线下还是线上市场，都将继续被锁定在传统的价格焦点上。

识别最佳个人偏好匹配

在许多领域，我们已经开始享受海量数据市场了，比如旅游、约车和电子产品等领域。但是，信息越丰富，其处理难度就越大——我们需要根据自己的个人偏好来衡量每个维度，选择最佳交易伙伴。将大量信息转化为决策是困难的。在 Expedia 这样的网上平台搜索航班时，面对太多的过滤器和选项，无论是谁都会不知所措。我们在爱彼迎（Airbnb）上选择民宿时，不也是如此吗？即使对于我们来说所有的选择都是很容易找到的，可是找到最佳选择往往也还是很困难的。其困难之处就在于信息过载，包括可供筛选、选择，并确定最优匹配的选项太多等问题。幸运的是，技术可以再一次帮上忙。

传统市场的关注点主要集中在价格上，买卖双方的个人偏好匹配是相对次要的。所有的个人偏好都被压缩成买方愿意支付的价格和卖方愿意接受的价格。人们觉得，只要买家和卖家能说出自己在价格上的偏好，而且市场上也有足够多的各类参与者，双方的交易就会自动发生。而事实上，在这样的交易中，一些有价值的个人偏好信息却丢失了。这也许是因为市场参与者没有把自己所有的个人偏好全部正确地体现在价格上，但其他人错误地从价格中推断别人的个人偏好也是一个原因。在这种情况下，一些看起来很相配的东西，实际上却并不匹配。我们可能认为这样的市场也是有效的，从中我们也能买到自己想要的东西，但事实并非如此。而且，这样的市场还可能让我们花的钱更多。

海量数据市场具有的优势之一，就是不会让价格焦点贬低个人偏好的地位。比起传统市场，海量数据市场还具有另一个优势：对一笔潜在的交易，一个人不但可以有多种偏好选择，而且可以用不同的方式来权衡不同的个人偏好。在个人偏好被压缩成价格时，两个同样重要的个人偏好可能会产生大相径庭的价格（一个价格非常高，一个价格非常低），就像两个重要性特别不一样的个人偏好那样。在海量数据市场中，原始的个人偏好数据，包括相对权重，都是可以被利用的，但它需要经历一个足够聪明的匹配过程，才能将这些偏好的多重维度和相对权重考虑进来。手工操作这个过程对于大多数人来说都是一种挑战，也很少有人愿意花费完成这个过程所需要的时间和精力。如果关于个人偏好的数据中的那些细节，没有被用来识别最佳匹配，那么数据的丰富性将毫无意义。

幸运的是，在过去的几十年里，数学家和经济学家一直都在努力开发一些算法，来评估各类偏好和它们的相对权重，并据此确定最佳匹配。尽管实际上这个过程是相当技术性的，但是从本质上讲，它与分析和匹配数据模式并没有太大不同。我们使用同样的技术来管理照片库（以方便自己寻找具有某些功能的图片），或者让我们的智能手机“理解”语音指令，或者让智能手表上的健康应用程序检测出心脏的危险迹象。由于个人偏好数据只是形成某种特定模式的数据流，所以我们可以采用匹配算法来帮助自己确定最优交易伙伴。这绝不简单（确切地做出选择，将哪些东西进行比较，这些可不是琐碎的小事），不过由于出现了更好的算法——这在很大程度上归功于大量的训练用数据，任务变得相对容易了。在海量数据市场中，这些算法是交易伙伴找到彼此的方法。

这是对基于价格的交易决策所做出的重大改进，它使买卖双方能够充分利用现有的完整数据流，并帮助他们有效且高效地将数据转化为交易。由于市场具有分散性，市场参与者之间的信息交易是二元的：潜在的买家与潜在的卖家做沟通，并在交换了个人偏好的信息后，双方都了解了对方的情况，但他们并不了解整个市场。此外，市场参与者可能不想透露他们所有的个人偏好，这种行为以及类似行为，导致了我们前面提到的信息不对称。海量数据市场并没有消除这种不对称，但是，因为在海量数据市场上，更多的个人偏好信息通常会带来更好的匹配，所以人们对个人偏好信息秘而不宣的动力就减少了：因为改善匹配情况的目的，就是要识别出在交易中可以让我们获得最大价值的交易伙伴，也就是出价最高的交易伙伴。通过匹配信息而得到的交易，很多时候比我们在自己的信息多于对方时，通过谈判来达成的交易还要有利。在海量数据市场中，潜在交易伙伴之间的每一次信息互动，都能显示出更多的关于市场上商品的信息。即使最终双方没有交易，它也会对商品的最终交易结果产生正面影响。而且，通过我们精心编排匹配过程，提高共同利益，优质匹配甚至可以为很多信息难以对称的领域提供帮助。当然，这个过程是不断迭代的，即使信息的流动是快速且廉价的，我们也依然还有努力提升的空间。这是因为，没有哪个人会知道每一个人的每一项偏好，交易决策虽然得到了很大改进，但它还并不完美。

送书福利

想要立即获得本书？那就快点击文章下方的“阅读原文”前去购买！

在本条推送下留言，聊一聊你在这个新时代——"数据资本时代"的故事，并转发朋友圈，就有机会获得我们免费送出的《数据资本时代》哦！活动截止时间为2018年12月20日中午12点，一共5本，快来加入我们的留言互动吧！

让创意化作心意

点击以下图片订阅《生活家ARBITER》，

一本专为高端品位男士读者度身打造的生活时尚杂志，现代传播全新出品