数据被称为21世纪的新石油。为了实现更大的社会福利,数据交易的趋势日益增长,推动了数据市场的兴起。数据市场是指任何一种机制,通过这种机制,数据产品(包括数据集和数据衍生品)的交换得以实现,这种交换可以通过数据买家与数据卖家的直接接触或通过中介代理进行。数据市场作为一种协调机制,通过包括数据定价和分配在内的多种功能的交互,旨在充分挖掘和提升数据的价值。 本文从数据搜索、数据产品化、数据交易、数据定价、收入分配以及隐私、安全和信任问题等方面,对这一重要且新兴的发展方向进行了全面综述。此外,我们还研究了不同国家和不同领域的数据市场的政府政策和行业现状。最后,我们识别了当前未解决的挑战,并探讨了数据市场发展的可能未来方向。

附加关键词和短语:数据市场、交易、定价、拍卖、隐私、安全、信任、政策

1 引言

数据在数字经济中被视为一种无价的资源。过去几十年,数据呈现爆炸性增长。作为获取知识和开发产品的原材料,数据以间接的方式创造价值。随着商业视角的重塑,数据如今像其他物质商品一样被直接货币化。个人和组织广泛交易数据集及其衍生数据产品。在这一新视角下,数据不再只是产品的推动者,而是成为产品本身。全球各国政府正抓住这一新机遇。例如,中国政府发布了一项指导方针,以改进基于市场的数据要素配置,这是首个将数据列为继土地、劳动、资本和企业家精神之后的生产要素[146]。美国则制定了《联邦数据战略行动计划》,旨在将数据作为战略资产加以利用[462]。

在数据货币化浪潮的推动下,数据市场应运而生。数据市场作为计算机科学与经济学之间的新兴交叉学科,正在迅速发展并朝着多样化的研究方向演进。数据市场的历史可追溯至1986年。当时,Admati和Pfleiderer[48]提出了一项开创性研究,研究了一个交易者从垄断卖家购买信息的市场。他们交易的是由个人代理持有或产生的数据。据我们所知,“数据市场”这一术语最早由Keenan[298]于2008年在文献中提出。他们提出在市场中交换地理信息系统收集的空间数据。2011年,Balazinska等[70]提出了一个更广义的数据市场愿景,其商品为衍生数据产品。他们为数据库研究社区概述了关系云数据市场中的关键挑战。自此以后,数据市场经历了快速发展。Koutris等[308]设计了首个基于查询的数据市场;Deep和Koutris[162]提出了一个可扩展且灵活的关系查询定价框架;Agarwal等[51]设计了首个直接交易训练数据的双边市场;Chen等[132]引入了首个基于模型的数据市场;更近期,Liu等[342]提出了首个涵盖卖家、中介和买家交互的端到端(基于模型)数据市场。

随着数据交易需求的增长,许多数据交易平台纷纷涌现,如AWS数据交易所[2]、Dawex[161]、BDEX[3]、Factual[8]和Snowflake[23]等。数据交易平台是在线交易地点或交换所,旨在促进数据产品的买卖。它们被授权托管数据产品并为利益相关者进行数据交易。

我们在本综述中对数据市场提出如下定义: 数据市场是任何一种机制,通过该机制,数据产品(包括数据集及查询结果和训练模型等数据衍生品)的交换得以实现,数据买家和数据卖家通过直接接触或中介代理进行交易。 数据市场作为一种协调机制,通过包括定价和分配数据在内的多种功能的交互,充分挖掘和提升数据的价值。在数据市场中,数据的生命周期涵盖了数据搜索、产品化、定价与交易中的货币化以及最终的销毁过程。交易数据产品自然会引发隐私、安全和信任问题,并面临实现合规性和可追溯性的监管障碍。在学术界和工业界,关于设计数据市场的探索十分丰富,不同的数据市场在数据产品、底层功能和市场机制方面存在差异。 本文从数据搜索、数据产品化、数据交易、数据定价、收入分配以及隐私、安全和信任问题等方面,对这一重要且新兴的发展方向进行了全面综述。此外,我们还研究了不同国家和领域的数据市场的政府政策和行业现状。最后,我们识别了当前未解决的挑战,并探讨了数据市场发展的可能未来方向。


1.1 相关综述

现有关于数据市场的综述大致可以根据范围分为以下几类:(1) 针对学术研究的综述[40, 176, 335, 483];(2) 针对行业现状的综述[64, 299, 329, 445];(3) 针对数据定价的综述[145, 153, 205, 371, 377, 415, 559, 561]。

**学术研究综述

关于数据市场生命周期的学术研究综述已有一些尝试[40, 176, 335, 483]。Thomas和Leiponen[483]从管理和商业角度出发,为管理者提供了一份关于大数据商业化的文献综述。Abbas等[40]采用服务-技术-组织-财务(STOF)模型研究了133篇学术文章,发现现有关于数据市场的文献主要集中于技术研究。Driessen等[176]对2021年前的数据市场相关研究进行了统计分析,并讨论了设计数据市场的实际应用领域和问题。Liang等[335]基于4V(体量、速度、多样性和价值)定义了大数据,并综述了交易大数据生命周期中的定价、交易和保护等环节的相关问题及模型。上述研究主要关注于交易数据的技术方面,而我们的综述涵盖了原始数据及其衍生产品(如查询、统计推断和机器学习模型)的交易,并全面涵盖了数据市场的主要流程。

**行业现状综述

已有四项研究[64, 299, 329, 445]对数据市场的行业现状进行了调查。Schomm等[445]通过研究46家数据供应商,从十二个维度对数据市场进行了初步调查。Li等[329]介绍了中国发展数据市场的政策,并探讨了包括预处理、定价、安全性、隐私和可验证性在内的研究机会。Azcoitia和Laoutaris[64]调查了180个在线数据交易实体,归纳了不同的商业模式并讨论了未解决的问题。

**数据定价综述

针对数据定价这一子主题,已有多项综述[153, 205, 371, 377, 415, 559, 561]进行深入研究。Muschalle等[377]研究了七家知名供应商的市场情况、定价方法和趋势。

**本综述的贡献

与现有研究不同,我们从学术研究和行业现状两个角度全面审视了数据市场,包括全球范围内的政府政策和代表性领域。我们还探讨了数据与其他生产要素的差异及其对数据市场设计的影响。我们的主要贡献包括: * 识别数据的独特属性,并讨论数据市场与其他生产要素市场的差异。 * 建立数据市场框架,形式化关键角色的能力和限制,并说明数据市场的主要运作流程。 * 总结构建高效数据市场的重要条件。 * 系统回顾数据搜索、产品化、定价、交易和隐私保护等方面的技术方法。

2 数据市场框架

在本节中,我们首先在2.1节展示数据与其他生产要素之间的差异。随后在2.2节介绍数据市场中的关键实体及其交互方式。最后,我们在2.3节描述了数据市场运作的七个主要过程。

**2.1 数据与其他生产要素的差异

生产要素(也称为生产的要素)是指生产商品和服务所需的基本投入。这些要素通过创造价值在生产过程中发挥关键作用。经典经济学中,生产要素包括土地、劳动、资本和企业家精神[446, 457]。数据与其他生产要素(如土地、劳动、资本和企业家精神)在多个属性上的差异列于表1,这为新兴的数据市场提供了洞见。 关于复制性

数据的一大显著特性是其可复制性。一旦数据被某人获取,可以几乎零成本地复制,这与企业家精神类似,而土地、劳动和资本不能无限制地复制。研究总结了数据可复制性带来的挑战及相关技术,包括数据复制攻击和对复制具有鲁棒性的定价策略(见9.2节)。数据的可复制性引出了另一个特性——非竞争性,即多个用户可以同时使用相同的数据。这种特性使得数据市场中的外部性尤为显著[253]。数据的外部性指的是,当其他用户拥有相同数据时,数据对某个用户的价值产生间接影响。外部性可能是正向的,例如在协作中,不同领域的用户通过数据洞察互惠互利;也可能是负向的,例如在竞争中,数据赋予某用户竞争优势,阻碍了其他竞争者的表现。这些外部性特性在数据定价中得到了考量(见第7节)。 关于利用率

在利用率方面,数据与其他生产要素既有相似之处也有不同之处。数据的可组合性使其可以结合其他数据进行不同用途,这与其他要素类似;但其可分性不同于劳动、资本和企业家精神,意味着数据可以轻松分割以实现独立使用。此外,数据的价值在不同任务中的差异非常显著,表现出比其他要素更强的异质性。数据还具有持久性,即数据可重复使用且不会被消耗,而劳动和资本通常是一次性的。除了持久性,数据甚至可以在无需人工努力的情况下自然增长,例如气象数据随着时间自然积累,而企业家精神(如技术和管理专长)则需通过人类劳动创造。这一数据的自然增长特性在数据定价和数据获取中带来了更大的挑战(见第6节和第7节)。 关于流动性

虽然数据的物理属性和可交易性容易理解,但其低流动性表明,当前数据难以轻松变现,因为尚未形成成熟的市场系统(见第10节的行业发展综述)。

**2.2 关键实体

本节介绍了数据市场中的关键实体及其交互方式。一个运作良好的数据市场必须将关键实体结合起来,为所有参与方提供明确的利益。框架如图2所示。一个实体(个人或组织)可在不同情境和交易中承担多个角色——数据拥有者、数据买家、数据卖家和数据中介。 * 数据拥有者:指拥有数据所有权的个人或组织。他们可能出售数据成为数据卖家,或购买数据成为数据买家。 * 数据卖家:指参与数据交易并出售数据产品的个人或组织。 * 数据买家:指购买数据产品的个人或组织。 * 数据中介:指在数据卖家和数据买家之间安排数据交易的个人或组织。数据中介在与数据卖家互动时充当数据买家角色,与数据买家互动时充当数据卖家角色。作为代理方,数据中介代表数据卖家和数据买家管理并协商交易。尽管数据中介不是数据交易的必要条件,但其服务可以简化交易过程,并通过收取部分收益作为利润。 * 数据交易平台:数据交易平台连接数据买家和数据卖家,提供数据搜索和协商服务等。除快速集中地提供市场信息外,数据交易平台还需作为数据管理平台,确保交易过程的可信、公平、安全、可追溯和高效。 * 政策制定者与监管机构:政策制定者负责提出并制定数据交易的指导方针和法规,而监管机构负责监督并实施这些法规。这两类机构在确保数据市场中的实体遵守规范方面发挥了重要作用。

**2.3 主要过程

本节介绍了数据市场的七个主要过程:数据搜索、数据产品化、数据交易、数据定价、数据追踪、数据合规性和数据销毁。这些过程通常按一定顺序发生,但并非所有过程都会出现,且可能存在顺序上的变化或交叉。 1. 数据搜索

数据市场的起点是数据卖家从各种来源搜索并收集有价值的数据。这些数据经过整合,以确保其价值和准确性,以满足数据买家的需求。如何从海量数据中识别有价值的数据仍然是一个重要且具有挑战性的问题。 1. 数据产品化

数据产品化是指数据卖家分析买家可能的需求,并创建可销售、标准化、可重复利用和易于理解的数据产品。这些产品可以单独出售,也可以整合以实现更高的价值。原始数据可以直接出售,也可以作为原料生成具有更高价值的新数据产品,例如网络接口、查询结果和机器学习模型。 1. 数据交易

数据交易是数据卖家和数据买家就数据产品的交换达成协议的过程。买卖双方的互动是达成数据交易的核心。 1. 数据定价

数据定价是为数据产品设定价格的过程,受所有实体交互的影响。传统基于成本的定价方法往往导致数据产品价格接近边际成本,无法弥补数据卖家的前期投资。研究者提出了基于价值和个性化的定价策略,例如Shapley值和拍卖模型(详见第7节)。 1. 数据追踪

数据追踪描述了数据的来源和变更,保证了数据搜索、产品化、定价和交易的真实性。数据追踪有助于解决数据质量问题以及收入分配问题。 1. 数据合规性

数据合规性指所有实体必须遵守的标准和法规,以防止敏感数据泄漏、误用和破坏。例如,GDPR、CCPA等法规要求市场参与者遵守数据隐私保护标准。 1. 数据销毁

数据销毁要求数据买家在数据不再使用或数据卖家选择撤销数据控制权时销毁数据。这包括物理销毁存储介质或覆盖存储内容。法规(如GDPR和CCPA)对个人数据保护的“被遗忘权”提出了要求,要求在特定情况下删除个人数据。

成为VIP会员查看完整内容
18

相关内容

数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。数据要素是指那些以电子形式存在的、通过计算的方式参与到生产经营活动并发挥重要价值的数据资源。在数字经济中,数据要素的角色可与传统的生产要素(如劳动力、资本和土地)相提并论。数据要素是推动数字经济发展的核心引擎,是赋能行业数字化转型和智能化升级的重要支撑,也是国家基础性战略资源。2023年正式成立的国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,不仅体现了对数据资源的战略性管理和规范化利用的需求,也体现了国家层面对数字经济发展和数据治理的重视。
【2023新书】数据科学中的信息论,417页pdf
专知会员服务
147+阅读 · 2023年5月6日
【干货书】机器学习—工程师和科学家的第一课,348页pdf
【硬核书】数据科学,282页pdf
专知会员服务
91+阅读 · 2022年11月29日
数据安全市场研究报告(附报告),93页ppt
专知会员服务
52+阅读 · 2022年11月3日
离散制造业边缘计算 解决方案白皮书,46页pdf
专知会员服务
31+阅读 · 2022年3月23日
最新《图机器学习》综述论文,19页pdf
专知会员服务
151+阅读 · 2021年5月5日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
【硬核书】数据科学,282页pdf
专知
23+阅读 · 2022年11月29日
最新《动态网络嵌入》综述论文,25页pdf
专知
34+阅读 · 2020年6月17日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
148+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【2023新书】数据科学中的信息论,417页pdf
专知会员服务
147+阅读 · 2023年5月6日
【干货书】机器学习—工程师和科学家的第一课,348页pdf
【硬核书】数据科学,282页pdf
专知会员服务
91+阅读 · 2022年11月29日
数据安全市场研究报告(附报告),93页ppt
专知会员服务
52+阅读 · 2022年11月3日
离散制造业边缘计算 解决方案白皮书,46页pdf
专知会员服务
31+阅读 · 2022年3月23日
最新《图机器学习》综述论文,19页pdf
专知会员服务
151+阅读 · 2021年5月5日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员