【博士论文】物联网数据安全可信的共享技术研究

2021 年 11 月 30 日 专知

来自上海交通大学牛超越的博士论文，入选2021年度“CCF优秀博士学位论文奖”初评名单！

https://www.ccf.org.cn/Focus/2021-11-22/750448.shtml

物联网数据安全可信的共享技术研究

随着 5G、低功耗广域网等网络基础设施加速构建，数以百亿计的物联网终端设备接入网络，产生了海量的数据。物联网数据的充分利用可以有力地驱动科技创新和经济增长，改善国计民生。由于数据是非独占性资源，具有协同作用，因此数据共享、融合应用能够极大地提升数据利用率。然而，数据作为生产要素缺乏市场化配置机制，同时数据供给侧存在安全隐私顾虑，数据需求侧存在效用可信顾虑，导致“数据孤岛”现象严重，已经成为制约大数据发展的关键瓶颈。为了消除数据壁垒，本文从数据共享多个参与方的安全隐私和效用需求出发，充分考虑物联网数据的大规模性、关联性、异质性和经济化属性，以及海量异构终端设备的资源受限和间歇可用，在基于数据迁移和计算迁移这两种互补模式下分别研究分析推理服务交易和终端间联合学习，使得多方差异化需求得到精准刻画、充分满足和高效验证。本文首先研究了感知数据分析服务交易机制，重点考虑感知数据的时间关联性和用户的策略行为，实现精准的关联性隐私量化、可满足的隐私补偿和无套利的查询定价，为物联网数据的供需双方构建市场化体制。其次研究了模型推理服务中隐私可保护的批量结果验证协议，重点考虑在保护用户的测试数据隐私和服务提供商的模型机密性前提下，批量验证模型推理结果的正确性。打通在数据迁移模式下隐私和效用需求刻画、需求满足和需求验证的完整链路。本文进一步提出了超大规模终端间联合子模型学习方法及隐私保护机制，面向复杂模型和异质数据突破终端开销瓶颈和模型性能瓶颈，同时保证终端用户可调控的数据隐私，最终实现从安全可信的数据迁移到计算迁移的跨越。本文主要内容总结如下：

首先，本文研究了如何交易针对时序感知数据的分析服务，设计了交易机制 HORAE。HORAE 首先基于河豚隐私框架度量存在时间关联的隐私损失，并以可满足的方式补偿具有不同隐私策略的数据提供者。此外，在面向用户灵活的查询进行定价时，HORAE 保证了可盈利性，规避了套利机会。将 HORAE 应用到身体活动监测场景，并在实际的 ARAS 数据集上进行了广泛的测试。实验结果表明，相比于基于条目/群体差分隐私的方法，HORAE 可以细粒度地补偿数据提供者。此外，HORAE 可以调控服务提供商的盈利率，同时规避用户的套利攻击。最后，HORAE 只产生较低的在线延时和内存开销。

其次，本文针对模型推理服务，研究了服务提供商如何在不泄露模型参数的情况下生成检查推理结果正确性的验证器。 此外，用户通常也不愿泄露自己敏感的测试数据。为此本文提出了隐私可保护的推理结果批量验证协议 MVP。MVP 主要利用多项式分解和素数阶的双线性群同时实现了秘密模型推理和批量结果验证，并保护了模型和测试数据的机密性。将 MVP 实例化了支持向量机模型和垃圾短信检测任务，并在三个实际的短信服务数据集上进行了测试。实验结果主要从计算开销和通信开销表明了 MVP 的轻量化以及良好的可拓展性。

最后，本文发现传统的联合学习框架需要每个终端下载、本地训练完整模型，并上传完整模型的更新。 这对于大规模的深度学习任务和资源受限的移动终端设备来说是不可行的。为此，提出了联合子模型学习框架，解除了联合学习对于大规模全局模型的依赖。在子模型框架下，每个终端只需下载所需的部分模型参数，即子模型，并上传子模型参数的更新。然而，终端真实所需的子模型在全局模型中的位置往往对应着它的本地数据，如果在与协调服务器交互过程中泄露真实的子模型位置将违背联合学习“数据不离开本地”的初衷。为此，本文提出了安全联合子模型学习协议，并设计了安全多方集合并集计算协议作为基石。安全协议主要利用随机回答、安全聚合以及布隆过滤器，赋予了终端对于其子模型真实位置的抵赖性，从而保护数据隐私。其中，抵赖性的强度可以用本地差分隐私来量化且允许终端本地调控。实现了原型系统，并在 30 天的手机淘宝数据集上进行了广泛地测试。实验结果从模型准确率、通信开销、计算开销、存储开销等方面体现了方案的可行性，同时显示了相比于联合学习的巨大优势。

专知便捷查看