国内首获IMWUT优秀论文，清华大学团队揭示App使用行为

2019 年 9 月 25 日 机器之心

机器之心专栏

论文作者：Zhen Tu 、Runtong Li、Yong Li等

一年一度的普适计算顶级会议 ACM UbiComp 2019 上周在英国伦敦落下帷幕。清华大学研究者发表的一篇论文被接收为优秀论文，这是 UbiComp 会议转为 IMWUT 期刊新发表模式三年以来，国内首次荣获优秀论文奖。

作为普适计算领域公认的顶级会议，ACM UbiComp 为全球研究人员提供了一个探讨普适计算系统设计、开发、部署、评测和理解等最新研究进展的多学科交叉交流平台。

UbiComp 始于 1999 年，2013 年合并了普遍计算和普适计算两个国际会议。过去十几年，UbiComp 规模发展迅速，每年向 UbiComp 提交的论文约有 400-500 篇，过去几年的接受率大约为 20-25%，每年有 600-800 名参会者参与。

UbiComp 从 2017 年开始采用新的发表模式，每年的会议文章由 IMWUT (Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies) 期刊录用，并全部邀请参会。

今年的会议开幕式在英国自然历史博物馆举行，会议各大论文奖项相继颁布。 Marc Bächlin 等人获得 UbiComp 会议 10 年最有影响力奖，Manu Gupta 等人获得普适计算领域 10 年最有影响力奖，Zhanna Sarsenbayeva 获得优秀学生奖。

而最受关注的优秀论文奖中，国内清华大学团队的文章《Your Apps Give You Away: Distinguishing Mobile Users by Their App Usage Fingerprints》入选。

据网站公布信息，这是 UbiComp 会议转为 IMWUT 期刊新发表模式三年以来，国内首次荣获优秀论文奖。

以下内容是对这篇获奖论文核心内容的解读。

论文地址：https://dl.acm.org/citation.cfm?id=3264948

摘要：理解移动用户的 App 使用情况对于服务提供商优化在线服务至关重要。但与此同时，人们越来越关注其中的隐私问题，那就是 App 使用情况可能会唯一地揭示他们的身份。在该文中，作者试图了解用户通过其使用的 App 在人群中被唯一识别的可能性。通过和一家主流运营商合作，作者获取了一个城市规模的匿名用户 App 使用行为数据集（137 万用户，2000 个 App，94 亿记录）用于研究该问题。通过大规模的实证分析，作者系统地研究了 App 使用行为的唯一性。

研究结果表明，对于使用超过 10 个 App 的用户而言，其 App 使用行为非常唯一，随机 4 个 App 就能够唯一识别 88% 的用户。当进一步考虑使用时间和地点信息时，用户的唯一性水平会进一步增强。此外，不同属性（性别、社交活跃度和移动模式）群体的行为唯一性水平存在明显差异。该文研究首次揭示了大规模尺度下移动用户的 App 使用行为规律，能够为进一步研究相应的数据隐私保护机制和个性化的推荐服务方案提供理论指导。

随着网络技术的发达和移动设备的普及，如今移动应用程序 (App) 能够随时随地为用户提供互联网服务，带来了极大的遍历。相较于传统网站而言，互联网用户已经将更多的时间花在了移动 App 的使用上。因此，理解移动用户的 App 使用行为和探索其行为规律，对于 App 开发者、网络服务提供商等都具有重要意义。

对于移动用户的行为规律，发表在 Nature 子刊和 Science 正刊的文章就表明，用户个体的移动轨迹就非常独特，且不同性别和收入水平人群的移动轨迹唯一性具有极大差异，这为后续的用户个体轨迹预测、地点推荐等相关研究提供了理论基础。但是，就 App 使用行为而言，目前较为缺乏衡量用户个体行为唯一性相关的研究工作，来给用户 App 使用行为预测及推荐研究提供理论指导。

基于以上背景，文章使用一个城市规模的 App 使用行为数据集，实现了首个对 App 时空使用行为唯一性做大规模实证分析的工作。为了全面衡量移动用户 App 使用行为的唯一性程度，文章研究了以下三个关键问题：

1）仅考虑 App 集合，用户的 App 使用行为有多唯一?

文章结果表明，仅考虑 App 集合时，用户行为的唯一性就很高。

在 Fig. 3(a) 中，76% 的用户能被 Top-4（最常用 4 个）的 App 唯一识别，超过 88% 的用户可以通过 Rand-4（随机 4 个）的 App 进行区分。在 Fig. 3(b) 中，作者仅随机挑选 10% 的数据记录进行相同的实验，仍然得到了类似的实验结果。

2）进一步考虑时空使用特征，用户的 App 使用行为有多唯一?

文章结果表明，当考虑时间和空间使用特征后，用户行为的唯一性进一步增强。

在 Fig. 4 中，当使用细粒度的时间分辨率 (5min) 时，结果表明使用 3 条随机选择的记录可以区分超过 82% 的用户；当考虑 5 条记录时，98% 的用户是唯一的。在 Fig. 5 中，可以看到使用 0.2km 的空间分辨率，80% 的用户可以被 3 条随机选择的记录唯一区分；当考虑 5 条记录时，95% 的用户是唯一的。