摘要: 物联网、穿戴设备和移动通信等技术的高速发展促使数据源源不断地产生并汇聚至多方数据收集者,由此带来更严峻的隐私泄露问题, 然而传统的差分隐私、加密和匿名等隐私保护技术还不足以应对.更进一步,数据的自主汇聚导致数据垄断问题,严重影响了大数据价值实现.此外,大数据决策过程中,数据非真实产生、被篡改和质量管理过程中的单点失败等问题导致数据决策不可信.如何使这些问题得到有效治理,使数据被正确和规范地使用是大数据发展面临的主要挑战.首先,提出数据透明化的概念和研究框架,旨在增加大数据价值实现过程的透明性,从而为上述问题提供解决方案.然后,指出数据透明化的实现需求与区块链的特性天然契合,并对目前基于区块链的数据透明化研究现状进行总结.最后,对基于区块链的数据透明化可能面临的挑战进行分析.
随着大数据技术和人类生产生活的交汇融合, 丰富的数据通过多种方式源源不断地被多方数据收 集者收集,进而依据这些数据进行数据决策和提供 服务.这种先予后取的数据收集模式已成为越来越 多应用的必要条件.固然大规模数据收集为个人、企 业和国家带来巨大的数据价值,但也带来隐私泄露 和决策不可信等问题,表现为大规模数据收集(mass collection)、大规模数据监视(masssurveillance)和大 规模数据操纵(massmanipulation)三个方面.
1) 大规模数据收集.大规模数据通过被动、主 动和自动方式被收集,如医疗就医、购物、网站搜索、 个人移动通信、出行和位置轨迹等数据.然而,作为 数据生产者,我们不知道哪些数据被收集、被谁收 集、数据被收集后会流向何处以及作何使用,导致隐 私泄露追踪问责困难.
2) 大规模数据监视.大规模数据收集导致大规 模数据监视,例如医疗就医和个人移动通信等数据 被政府部门收集,购物、社交和出行等数据被各大公 司掌握.个人在享受服务的同时也时刻处于被监视 状态,个人隐私在深度和广度受到巨大冲击.
3) 大规模数据操纵.由于现有政策、技术和制 度的不完善,数据战略合作和数据交易等过程中存 在大量用户隐私与安全问题.在数据决策过程中,数 据非真实产生、数据被篡改、数据质量管理过程中的 单点失败等问题导致决策数据不可靠,由此导致数 据决策结果不可信[1G2].然而,我们深受数据操纵影 响却对此束手无策.
“FacebookG剑桥分析事件”是大规模数据收集、 大规模数据监视和大规模数据操纵的典型案例.匿 名和差分等传统隐私保护技术主要解决数据发布时 的隐私泄露问题,致使其并不能很好地解决当下数 据自主汇聚产生的隐私泄露问题.同时,数据决策应 用于人类生产生活的方方面面,决策数据不可靠导 致的决策不可信是影响大数据进一步发展和应用的 重要因素[3].
进一步,数据自主汇聚还导致数据垄断现象出现.数据本身的易聚集特性、大公司覆盖各数字化领 域的商业模式和庞大的用户规模等因素加剧数据聚 集现象,各公司数据持有量出现差异[4].我们在2019 年«中国隐私风险指数分析报告»中对3000万移动 用户的权限数据(权限数据是指在移动场景下,某用 户安装并使用一系列 App,数据收集者通过 App的 权限体系获取该用户的个人隐私数据)收集情况进 行分析,数据收集者获取权限数据的分布如图1所 示[5].可以看出前10%的数据收集者获取大于99% 的数据,数据垄断现象已悄然形成.数据垄断可能会 阻碍市场竞争、使消费者福利受损、阻碍行业技术创 新和带来更严重的个人隐私泄露风险等.现实世界 财富获取的“二八定律”指20%的人占有80%的社 会财富,这依赖于法律、税收等方式的调节.而在虚 拟世界,如果将数据比作财富,还是一个没有得到有 效调节和分配的领地.因此,急需建立相关技术手段 和法律法规.
如何使这些问题得到有效治理,使数据得到正 确、合理和规范地使用是大数据发展面临的主要挑 战.导致这些问题的主要原因是大数据价值实现过 程中存在不透明性,数据获取和数据等共享流通过 程的不透明性使隐私泄露问题问责困难和数据垄断 问题缺乏解决依据,数据决策的不可审计性导致大 数据驱动的决策不可信.工业界对大数据价值实现过 程的透明性提出迫切需求.苹果 CEO 库克在2019年«时代周刊»发表评论建议设立新框架增强企业处理 用户数据的透明性,并建议建立数据清算和要求所 有数据中介在清算所注册,从而使用户能够跟踪被 捆绑并被销售的数据.Gartner发布的2020年战略 性技术研究趋势报告中也将“透明性与可追溯性”作 为十大战略性技术趋势之一[6].
增加大数据价值实现的透明性,是促进大数据 正确使用的重要举措和必经之路.据此,本文提出数 据透明性的概念,指在大数据价值实现过程中,各个 参与方都能获取与自身相关的全部数据信息.并将 数据透明性分为数据获取透明性、数据共享透明性、 数据云存储服务透明性、数据决策透明性和法律法 规透明性5个部分,通过这5个部分实现数据透明 化.数据透明化需要公开透明地记录数据的获取和 共享流通等信息,以及去中心化地管理数据和执行 数据质量管理.这些需求与区块链的特性天然契合, 而且区块链的去中心和不可篡改特性使数据透明化 具有更强的问责能力.
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“BCD” 就可以获取《基于区块链的数据透明化:问题与挑战》专知下载链接