社交类App更易泄露用户隐私,上海、云南隐私风险最高 | 中国人民大学孟小峰教授团队发布2018中国隐私风险指数

2019 年 1 月 29 日 大数据文摘


本文内容来自学术空间ScholarSpace(ID:C-DBLP)


近日,抖音发布公告表示新用户无法以微信授权登录,也即抖音登陆被微信封杀了。而微信回应称,这么做是为了保护用户隐私。


这一事件无疑给愈演愈烈的“头腾”大战加了一把火,也将互联网时代的用户隐私话题再一次被提上了风口浪尖。


大规模数据收集问题日益严重,造成诸多隐私风险,并引发了大量社会问题。政府立法立规和企业隐私治理是解决该问题的重要途径。然而,目前政策法规和企业规范的制定仍亟需客观依据。


基于此,中国人民大学网络与移动数据管理实验室与国内最大的移动大数据服务商极光合作(由极光提供数据支持),基于3000万移动设备的App数据构建隐私风险量化模型,制定了中国隐私风险指数体系并总结形成2018年度《中国隐私风险指数分析报告》,可以为我国相应的法律法规和行业规范制定提供客观依据。


针对这次抖音和微信的争端,报告主创团队表示,“大战”的双方——“今日头条”和“腾讯”两家互联网巨头都是国内用户数据获取量比较多的App主体公司。


从整体上来看,该报告试图揭示以下问题真相:

  • 数据都去哪儿了?

  • 隐私换服务?哪些App更容易泄露用户隐私?

  • 看看你的家乡排第几?中国地域隐私风险呈现何种差异?

  • 你中枪了吗?高隐私风险职业有哪些?

  • 网上冲浪需谨慎?哪些行为正加剧用户隐私风险?


中国隐私风险指数


中国人民大学信息学院孟小峰教授团队(网络与移动数据管理实验室经过近一年的深入研究,发布了2018年度《中国隐私风险指数分析报告》,这是国内乃至世界上首例对大规模移动用户隐私风险量化的研究成果。


中国隐私风险指数是一个反映我国在特定时段内数据拥有者(移动用户)因个人数据被收集者(App开发者)获取而面临的隐私风险及数据收集者造成的隐私风险相对数的宏观指标,用来反映不同移动用户个体或群体面临隐私风险的差异。


模型思想


本报告对移动场景下的隐私风险进行分析并量化,以具体数值揭示隐私风险程度相对大小。隐私风险量化指通过识别用户的泄露数据源,基于从该数据源泄露数据的可能性及泄露后对用户隐私产生的危害综合评估用户的隐私风险程度。


通过调研,权限分析是最简单有效的App隐私风险分析方法,其基本思想是移动用户数据是通过App权限请求而泄露的,相应地,数据收集者也是基于App权限权限来获取用户数据的。进而,该报告从移动场景下两大数据主体——数据拥有者(移动用户)、数据收集者(本报告仅讨论App开发者)角度入手,构建基于权限的隐私风险量化模型。


指数体系



基于数据拥有者(移动用户)和数据收集者(App开发者)的隐私风险量化结果,本报告进一步制定中国隐私风险指数体系,从数据收集者角度揭示移动用户数据的流向,并从自然属性、社会属性、行为属性等维度揭示不同数据拥有者群体的隐私风险特征,最终分析汇总成《中国隐私风险指数分析报告》。


数据集


本报告数据集由基于中国现有333个地级行政区分层抽样的约3000万(30,907, 758)样本用户的App使用数据、162个维度的用户属性画像数据(自然属性、社会属性、地域信息及行为属性等)、通过爬取第三方应用网站得到近30万( 294,358 )个App数据(App名称、类别、开发者、版本、权限、大小、评分等)组成。


注:本报告中的用户数据均来源于匿名处理后的移动设备数据。


中国隐私风险指数分析流程


数据都去哪儿了?前10%数据收集者获取99%权限数据


截至2018年6月,数据集中全部用户通过使用App共产生约131.98亿份权限数据。信息完备的约16.47万款App对应约12.23万数据收集者,这些数据收集者共获取约90亿份权限数据。从获取隐私权限数据份数量级上可将数据收集者划分为亿级、千万级、百万级直至个级权限数据获取收集者,对上述不同级别的数据收集者进行统计分析,前10%数据收集者获取了99%的权限数据!


现实世界中常见的“二八定律”反映在虚拟世界中更为残酷,数据收集的垄断现象极为严重。数据“巨头”的统治地位相比经济“巨头”更加明显。


数据收集者权限数据获取分布


前0.01%、前0.1%、前1%、前5%、前10%


隐私换服务?这几类App最容易泄露你的隐私


本报告内App共有21类(不包括“其他类”),不同类别App由于自身功能的需要而请求不同的权限。此外,再加上不同人群偏向使用App的不同,使得不同人群隐私风险指数呈现差异。


因此本报告对21类App固有的权限请求状况进行分析,并对其在用户集内的权限数据获取状况进行统计,结果表明,社交类、旅游出行类、工具类、购物类和理财类App平均获取用户数据最多,更容易泄露用户隐私。相反地,儿童类、娱乐类、安全类App则较为安全。


看看你的家乡排第几?全国各省隐私风险排名出炉!


据2016年国务院发展研究中心《地区协调发展的战略和政策》提出的八大综合经济区(东北综合经济区、北部沿海综合经济区、东部沿海综合经济区、黄河中游综合经济区、大西北综合经济区、大西南综合经济区、长江中游综合经济区和南部沿海经济区)构想,本报告对各经济区隐私风险指数进行分析,结果表明,东部、南部沿海以及大西南地区隐私风险指数偏高,黄河中游、北部及西北地区隐私风险则偏低。


八大综合经济区隐私风险


进一步,本报告具体分析全国34个省级行政区和333个地级行政区隐私风险指数后发现,经济发达省份和旅游省份隐私风险相对较高,中等发达省份隐私风险普遍较低。


除港澳台地区外,高隐私风险的省份前三位依次为:上海市、云南省、浙江省;低隐私风险的省份前三位依次为:河南省、甘肃省、山西省。港澳台地区隐私风险排名为香港特别行政区>澳门特别行政区>台湾省,考虑到这三个地区App使用偏好与内地存在差异(如社交软件常用Facebook,Instagram等)的原因,故不与内地各省市进行比较。


中国隐私风险指数地图


你中枪了吗?十大高隐私风险职业


基于2015版《中华人民共和国职业分类大典》,本报告将用户职业按粒度划分为三级。一级职业是粒度最大的职业划分,包括5大类:(1)专业技术人员;(2)办事人员和有关人员;(3)商业/服务业人员;(4)农/林/牧/渔/水利业生产人员;(5)生产/运输设备操作人员及有关人员。二级职业是粒度中等的职业划分,每个一级职业均对应多个二级职业。三级职业是粒度最小的职业划分,本报告的数据集中涉及其中25类。


对于五类一级职业,隐私风险指数由高到低依次为生产/运输设备操作人员及有关人员、商业服务人员、农/林/牧/渔/水利业生产人员、专业技术人员、办事人员和有关人员;二级职业中,工程技术人员隐私风险指数最高,运输服务人员的隐私风险指数最低;而十大高隐私风险的三级职业由高到低依次为IT工作者、销售人员、律师、司机、人力资源人员、保险代理人、建筑人员、个人店主、装修人员和会计。



网上冲浪要小心!这些行为正在加剧你的隐私风险


本报告通过对购物偏好、教育行为、直播行为、社交习惯、贷款倾向、游戏爱好、彩票倾向、阅读倾向、新闻倾向、理财对象、住宿习惯和出行方式这12类共计91种用户行为的隐私风险指数加以分析后发现,具有外宿、贷款倾向行为的人群隐私风险普遍较高,而爱好游戏、阅读的人群隐私风险偏低;此外,不同教育行为、直播行为和新闻倾向的人群隐私风险指数差异较大。


12类行为属性隐私风险指数总体分析


社交习惯


偏好与陌生人互动的社交人群隐私风险普遍偏高,而熟人社交、校园社交人群隐私风险较低。


社交习惯指人们经常使用的社交App类型,包括人脉社交、匿名社交、陌生人社交、同志社交、情侣社交、妈妈社区、同城交友、校园社交、熟人社交、婚恋交友10种属性。偏好与陌生人互动的社交人群隐私风险偏高,如同城社交、匿名社交及婚恋交友等,且这些社交方式的隐私风险差异不大,熟人社交、校园社交人群隐私风险偏低。



直播行为


喜欢收看旅游直播、美妆直播节目的人群隐私风险指数偏高,收看电视直播的人群隐私风险指数最低。


直播行为指移动用户常收看的网络视频直播类型,包括旅游直播、体育直播、明星直播、美妆直播、cos直播、秀场直播、社交直播、电视直播、教育直播、游戏直播10种属性。分析发现,喜欢收看旅游直播、美妆直播节目的人群隐私风险指数偏高,收看电视直播的人群隐私风险指数最低。cos直播、体育直播行为隐私风险分列三、四位,而收看明星、教育、秀场、社交和游戏直播的人群隐私风险差异不大。



总结


本报告从数据拥有者(移动用户)和数据收集者(App开发者)两个角度定量评估隐私风险,并基于分层抽样得到的约3000万移动设备数据集构建出中国隐私风险指数体系,形成《中国隐私风险指数分析报告》。本报告主要结论如下:


大规模数据收集现状:数据收集垄断现象极为严重。前10%的数据收集者获取了99%的权限数据,比现实世界财富获取的“二八定律”更为残酷。


App类别数据收集特征:社交类、旅游出行类、工具类、购物类和理财类App平均获取用户数据最多,更容易泄露用户隐私。相反地,儿童类、娱乐类、安全类App则较为安全。


区域隐私风险指数:东部、南部沿海以及大西南地区隐私风险指数偏高,黄河中游、北部及西北地区隐私风险则偏低。经济发达省份和旅游省份隐私风险相对较高,中等发达省份隐私风险普遍较低。


人群隐私风险指数:高隐私风险职业前三名依次为IT工作者、销售人员、律师。高收入高消费人群隐私风险最高,低收入中等消费人群隐私风险最低。


行为隐私风险指数:具有外宿、贷款倾向行为的人群隐私风险普遍较高,而爱好游戏、阅读的人群隐私风险偏低;此外,不同教育行为、直播行为和新闻倾向人群隐私风险指数差异较大。


2018年度《中国隐私风险指数分析报告》将在近期发布,详细内容请联系 junxu_liu@ruc.edu.cn

听说点了「好看」的人都变好看了哦
登录查看更多
0

相关内容

孟小峰,CAAI社会计算与社会智能专委会主任、中国人民大学教授、CCF Fellow。主要研究领域包括数据智能、数据治理、社会计算与社会智能等交叉学科。ACM中国SIGSPATIAL分会主席。发表学术论文200多篇,出版专著“网络与移动数据管理”3部曲等。曾获省部级特等奖1次、二等奖3次,中国计算机学会“王选奖”一等奖、第三届北京市高校名师奖等。
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知会员服务
24+阅读 · 2020年4月20日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
131+阅读 · 2020年3月25日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
137+阅读 · 2019年12月12日
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
11+阅读 · 2019年4月25日
美参议员提出商业面部识别隐私法案
蚂蚁金服评论
12+阅读 · 2019年4月25日
基于差分隐私的地理社交网络发布
FCS
9+阅读 · 2019年2月22日
杨强教授:AI算法重点转向关注数据安全隐私
极市平台
11+阅读 · 2019年2月17日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
GDPR之风盛行,美、印、巴接连启动数据保护立法
百度公共政策研究院
4+阅读 · 2018年8月29日
易观联合清华海峡研究院成立人工智能实验室
Analysys易观
4+阅读 · 2017年10月28日
One-Shot Federated Learning
Arxiv
9+阅读 · 2019年3月5日
Arxiv
8+阅读 · 2018年2月23日
VIP会员
相关资讯
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
11+阅读 · 2019年4月25日
美参议员提出商业面部识别隐私法案
蚂蚁金服评论
12+阅读 · 2019年4月25日
基于差分隐私的地理社交网络发布
FCS
9+阅读 · 2019年2月22日
杨强教授:AI算法重点转向关注数据安全隐私
极市平台
11+阅读 · 2019年2月17日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
GDPR之风盛行,美、印、巴接连启动数据保护立法
百度公共政策研究院
4+阅读 · 2018年8月29日
易观联合清华海峡研究院成立人工智能实验室
Analysys易观
4+阅读 · 2017年10月28日
Top
微信扫码咨询专知VIP会员