产业视角下谈数据治理，有哪些内容值得关注？

2018 年 7 月 30 日 腾讯研究院

探讨数据治理问题，既需要从理论视角探讨权利归属、保护方式，也需要从产业和实务视角对技术发展现状和趋势、产业应用、制度基础进行分析。

▷7月25日，网络法工作坊持续进行

中国信通院云计算与大数据研究所闫树工程师、君合律师事务所董潇律师、中国信通院工业和信息化法律服务中心许长帅副主任、中国法学会法治研究所刘金瑞副研究员、中国人民大学新闻学院宋建武教授、中国人民大学未来法治研究院丁晓东副院长、对外经济贸易大学数字经济与法律创新研究中心许可主任为各位学员带来精彩的课程和分享。

观点

集锦

大数据与实体经济虽然融合提速，但不均衡现象突出。大数据与实体经济融合的成功要素包括，一体化的大数据平台、平民化的数据应用以及完善的数据管理体系。

—— 闫树

纵观全球，目前关于数据画像规范仍比较有限，欧盟提出的根据对个人影响而区分监管的趋势和实践之中的验证值得关注。于我国而言，在数据保护基本原则的不断发展情况下，实践中到底应该选择一条怎样的路径才能更好地促进行业的发展、同时使个人权利得到相应的保护，值得深思。

—— 董潇

在因法律行为导致法律关系变动的情形下，个人作出意思表示需主动提供个人信息，使个人信息被他人知悉，实现了个人信息流动，不存在该他人告知个人收集其信息的目的、方法等，取得个人同意后予以收集的“告知同意”情形。

——许长帅

个人信息权一概而论地强调个人利益，不符合当今时代发展需要和现实情况，不应该成为中国个人信息保护的理论基础，不应写入正在编纂的中国民法典。

——刘金瑞

在未来，有几个基本规则需要在智能推送中得到强化：首先是用户个人对信息的选择主权；其次是基于个人社会化视角的社会干预；最后要对某些用户病态的信息需求加以校正。

——宋建武

算法黑箱之所以引发关注，在于算法应用的一些场景中发生不透明与知情权缺失的状况。

—— 丁晓东

面对算法向我们提出的种种挑战，一个办法是控制输入，另一个办法是控制输出。

——许可

演讲

实录

“

大数据技术、应用与产业

”

闫树

中国信息通信研究院云计算与大数据研究所工程师、大数据发展促进委员会数据流通工作组副组长

大数据是体量大、结构多样、时效强的数据，处理大数据需采用新型计算架构和智能算法等新技术。大数据的应用强调以新的理念应用于辅助决策、发现新的知识，更强调在线业务流程化。目前，大数据政策热度持续攀升。

就大数据技术发展方面而言，数据分析技术迭代发展，事务性数据处理技术即将迎来分布式变革，数据流通技术正逐步进入实用阶段。我国大数据技术近年来也取得了积极突破。

大数据应用发展也愈发广阔。

目前，大数据应用于政府政务、健康医疗、互联网金融、教育文化、工业制造等领域。同时，金融、征信、风控领域也是大数据应用非常成功的领域，大数据与实体经济虽然融合提速，但不均衡现象突出。

大数据与实体经济融合的成功要素包括，一体化的大数据平台、平民化的数据应用以及完善的数据管理体系。

大数据产业由大数据核心业态、大数据关联业态和大数据衍生业态构成。大数据产业的核心要素包括制造和服务两个环节，即包括大数据硬件提供商、大数据软件提供商和大数据服务提供商三类角色。

大数据产业的关联要素包括大数据的产生、采集、传输、存储和处理等外延产业。中国信息通信研究院结合对大数据相关企业的调研测算，2017年我国大数据产业规模为4700亿元人民币，同比增长30.6%。

“

个人画像的规制研究

”

董潇

君合律师事务所合伙人

用户画像已被应用到很多现实场景中，如程序化广告、征信、新闻推送、保险行业等。

大多数法域目前对用户画像没有明确的规制体系。例如，美国并没有统一的信息保护法，也没有针对用户画像的法规，而是针对不同的场景，适用相关行业自律体系和特殊规范。

例如，对一般的数据处理的行为，仍以FTC法案第5条适用为主。在程序化广告行业，依靠DAA、IAP等行业自律组织的规范，对于征信类的数据，主要考虑CRA的规定。

欧盟刚刚生效的GDPR首次对画像进行了定义，主要定义特征包括：引入自动化决策机制、评估自然人的个人情况、并且进行预测。在GDPR的规定下，并非所有的用户画像行为都被禁止或特殊规制。

第22条规定主要的是自动化处理的个人决策、并对个人产生法律后果或者近似重大影响。如果不造成这种影响的数据画像，原则上只需要按照GDPR项下个人信息处理的一般原则进行。如果适用22条，则需要满足相应的前提条件才能够进行画像，包括同意、政府授权或为履行合同所必需。

但实践之中，主要仍需要同意作为处理的基础，而在GDPR项下同意的要求非常高、并且可以撤回。GDPR项下数据处理的一般规则，包括合法公平透明化、最小化原则、包括同意的要求、目的的限制等在无论是否适用22条的画像都会适用。

纵观全球，目前关于数据画像规范仍比较有限，欧盟提出的根据对个人影响而区分监管的趋势和实践之中的验证值得关注。

于我国而言，在数据保护基本原则的不断发展情况下，实践中到底应该选择一条怎样的路径才能更好地促进行业的发展、同时使个人权利得到相应的保护，值得深思。

“

追根溯源——个人信息流动

与保护的基础问题

”

许长帅

中国信息通信研究院工业和信息化法律服务中心副主任，高级工程师

法律关系变动的主要原因为法律行为，法律行为的成立要件包括主体、客体和内容。法律关系变动依赖个人信息流动，个人信息流动出于个人主动自愿。

因此，在因法律行为导致法律关系变动的情形下，个人作出意思表示需主动提供个人信息，使个人信息被他人知悉，实现了个人信息流动，不存在该他人告知个人收集其信息的目的、方法等，取得个人同意后予以收集的“告知同意”情形。

法律关系变动依赖个人信息流动，为了保障法律关系的正常变动，法律应以保护和确保个人信息的流动为基本原则。

虽然个人信息在法律关系变动中由个人主动提供，不存在信息收集者在告知后取得个人同意后收集的情形，但“告知”在个人信息保护中也具有重要的作用。为确保个人知情，提示其个人信息有被知悉的风险，保障其自主决定，需要服务提供者告知其接受和使用其服务将由哪些个人信息同时被知悉和使用。

同时，个人信息保护中的“同意”，应指同意交易条件，包括标的、数量、价格、个人信息等。个人信息，是同意对象的组成部分。

对个人信息进行保护，不适宜通过设置个人信息权的路径，根本原因在于保护个人信息的目的是为了保护个人空间内独立、自如的生活状态，保护的是个人自主决定和选择生活的人格利益，个人信息只不过是外在载体，不适宜作为权利客体。

另一方面，若承认个人信息权，则会产生“既然你的服务建立在收集和使用我个人信息的基础上，请你为使用我个人信息的行为付费”的论调。

个人信息的保护还应当回归具体的法律关系。个人信息流动是法律关系变动的一部分，我们不应割裂个人信息流动和更为基础的法律关系变动。保护和判断是否侵犯个人信息，应当回归到该法律关系，进而适用相关法律依据，比如合同法的缔约过失责任、违约责任，以及侵权法上有利益保护等。

个人信息保护制度中，不可或缺的是行政机关对非法收集和使用个人信息的行政处罚。但对于特定的个人而言，行政机关并无对其个人信息进行保护的职责。

“

智能推送的影响和规则

”

宋建武

中国人民大学新闻学院教授，博士生导师

智能推送在当今社会具有极大的意义和价值。用施拉姆或然率公式来解释今日头条运用智能推送而迅速发展比较有说服力。今日头条的精准化推送相比以前门户网站的列表式推送与“百度式搜索”，在海量信息获取与用户需求分析方面，更符合传播规律。

在竞争的驱动下，移动传播的内在规律就是精准推送，这种智能推送的实现方式是首先建设内容数据库聚合海量信息，进而建设用户数据库记录用户信息需求，最后通过大数据和算法相结合的方式来实现智能推送与精准分发。

这种方式解决了社会信息化带来的海量信息与媒体终端个人化引发的个人化信息需求之间如何有效匹配的矛盾。

这种智能推送带来了移动传播革命。它首先是一次传播关系的革命性变革，用户个人第一次成为传播活动的独立主体，而不是作为群体中被假设为无差异的一个；其次，移动传播革命凸显了个性化的信息需求并要求通过精准传播加以实现。

在此基础上，智能推送应当遵循什么规则呢？以今日头条为例，其典型推荐规则包括有相关性特征、环境特征、热度特征和协同特征。在移动传播环境中，对“热度”特征的过分强调往往使信息推送流于过度娱乐化。

一个应对措施就是重新认识信息的“重要性”，包括重新理解重要性概念，重新思考如何建立个人的重要性判断与社会的重要性判断的一致性等。

在未来，有几个基本规则需要在智能推送中得到强化：首先是用户个人对信息的选择主权；其次是基于个人社会化视角的社会干预；最后要对某些用户病态的信息需求加以校正。

“

算法黑箱与算法规制的基本原理

”

丁晓东

中国人民大学法学院副教授，未来法治研究院副院长

算法黑箱之所以引发关注，在于算法应用的一些场景（例如公共机构的录取、评级、摇号等）中发生不透明与知情权缺失的状况。由此衍生的相关问题包括算法主体性丧失、算法欺诈和决策权丧失、算法权力与算法控制、算法不平等与歧视等。

针对算法黑箱的问题，目前已有的解决方案有算法透明，具体措施是公开算法和公开源代码。另一个措施是提高算法的可解释性。第三条路径是努力实现算法公平，逐渐实现搜索中立性和反歧视性。还有一些国家设置了专门的算法规制机构，来增强算法规制的专业性和可操作性。

上述提到的解决方案面临着一些技术困境。首先，算法透明与算法可解释性面临的一个难题是，专业人员也很难对此作出解释，而AI时代的解释更为困难。

其次，面临着自主性问题，因为对于某些问题而言，自主决定并不一定最好，大数据助推反而可能更好。

第三，算法公平和反歧视也存在一定问题。因为算法公开难以真正解决反歧视问题，社会中的反歧视普遍存在。

第四，知识产权问题。公开算法可能违反知识产权或商业秘密。第五，设置的专门算法机构，可能缺乏场景化理解。

解决算法问题，需要重新思考算法黑箱，在某些情形下可以或者必须保持黑箱，重要的是将算法伦理化；需要重新思考算法可解释性，在具体场景中选择解释的对象、程度与方式；需要重新思考算法歧视与算法平等，摒弃形式化的反歧视，要善于利用算法进行反歧视与促进平等；需要重新思考算法的个性化推荐，结合经济学的三级价格歧视问题与隐私保护问题进行思考。

“

与谈环节

”

刘金瑞

中国法学会法治研究所副研究员

个人信息权一概而论地强调个人利益，不符合当今时代发展需要和现实情况，不应该成为中国个人信息保护的理论基础，不应写入正在编纂的中国民法典。

首先，中国正处在一个时空压缩的阶段，面临的问题非常复杂，我们应当从原问题出发，从生活场景出发，既要解决保护不足的问题，也要避免出现保护过度的问题。

其次，个人信息保护需要坚持利益平衡原则，既要保护个人利益，也要保护现有的商业实践和个人信息的社会价值。

第三，中国个人信息的保护方案既不适合套用欧洲模式，也不适合套用美国模式，最优策略是走一条中国特色的个人信息保护之路，亟待研究的是中国个人信息保护的基础理论。

第四，要警惕目前我国个人信息保护刑法先行而且刑事化保护过度的倾向，这可能会冲击或者扼杀正常的数据流动。

许可

对外经济贸易大学数字经济与法律创新研究中心执行主任

讨论算法问题，必须要首先明确：何为算法？在我看来，算法是一系列用于描述一个问题解决方案的步骤，它是与具体实现相互独立的抽象计算步骤。这与之前所言的“代码”形成了鲜明的对比。

简单地说，代码是数学的，算法是工程学的；代码是具体的，算法是抽象的；代码是确定的，算法是不确定的。

因此，如果代码就是法律，挑战的是法律的权威地位的话，那么算法挑战的是立法者的权威定位。因为在很多情况下，算法（尤其是深度学习算法）超出了人的预设、理解和决定。

对算法的规制没有一个统一的模式，我们必须从场景出发，case by case的处理。我大致将算法问题分为三个前后相继的场景。

首先是根据算法提供个性化的产品、服务或信息，比如今日头条的推送；其次是根据算法对产品、服务或信息进行个性化定价；最后，根据算法对个人进行评价并作出自动化决策。

第一个场景涉及算法的自主性问题，即究竟是谁在选择？是人，还是机器？第二个场景涉及算法透明性问题，即个人应当知道我被算计了。第三个场景涉及算法公平问题，即是否存在歧视和不公平对待。

三个不同的场景面对三种不同的问题。

那么有没有一个基本共同的解决思路？我的不成熟想法是：一方面要控制输入。

我们都知道算法是要靠数据喂养，我们可以在在输入端上控制，以解决算法公平问题。例如，GDPR明确规定个人特殊信息不能作为自动化决策的输入内容。

另一方面要是控制输出。

因为黑箱的存在，很难按照民法中的过错原则去判断算法的过错，可以回到之前通过对code writer的规制方式，即向算法的提供者施加严格责任，即过错推定。为了防止责任过重阻碍创新，可以通过法定赔偿限额、保险市场来进行责任分担。

讲师授课全部内容后续将整理出版，敬请期待。

▷往期阅读：

数据治理有哪些多元路径？法学院教授们这么说

2018网络法工作坊开班，学员TED演讲精彩纷呈

登录查看更多

相关内容

大数据

关注 270

从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”，或者说特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。

大数据安全技术研究进展

专知会员服务

95+阅读 · 2020年5月2日

2020年中国《知识图谱》行业研究报告，45页ppt

专知会员服务

240+阅读 · 2020年4月18日

工程领域大数据和人工智能原则

专知会员服务

125+阅读 · 2020年3月26日

新时期我国信息技术产业的发展

专知会员服务

71+阅读 · 2020年1月18日