机器学习算法在大规模且多样化的数据集上能够获得更好的性能。然而,商业需求与研究工作流程在私有数据的所有权方面往往存在冲突。若不共享原始的私有数据,现有的隐私增强方案通常会在性能(导致下游模型性能下降)或隐私(泄露潜在敏感信息)之间作出权衡。 本论文旨在通过建模一个由三方组成的系统——模型拥有者、数据拥有者以及监管者——来弥合机器学习与数据所有权之间的鸿沟。各方之间的激励冲突通过安全与保密计算技术加以解决,这包括安全多方计算(Secure Multiparty Computation, S-MPC)同态加密(Fully Homomorphic Encryption, FHE)。尽管这些技术在机器学习领域中知名度较低,但它们能够在一定程度上支持数据权利保护。 1. 数据评估问题(Data Appraisal Problem):由于训练数据通常由不同主体持有,第一个子问题在于——能否在不共享数据的前提下评估未公开训练数据的效用?本论文提出并形式化了数据评估问题,并以一种高效且准确的隐私保护方案加以求解。具体而言,我们设计了与高效 S-MPC 计算兼容的基于影响力的评估函数,使得模型拥有者与数据拥有者无需共享任何数据,即可在给定模型与测试集的条件下估算各数据集的相对价值。该方法在类别不平衡条件下,对 100 个数据集的密文排名结果与明文真值的相关性达到 92.3%,在标签翻转条件下达到 96.0%,且避免了在 S-MPC 下联合训练模型时敏感超参数带来的可用性挑战 [320]。 1. 低数据域中的隐私-效用权衡问题:在数据稀缺的领域中(如医院),是否必须在数据效用与隐私之间作出取舍?针对医院在模型训练中面临的数据匮乏与隐私协作难题,本论文提出了一个实用框架——Secure-KL(SKL)。该框架仅输出评估得分,而不泄露任何数据内容,从而在不承诺最终模型结构的前提下,安全地评估潜在可合并数据的增益。SKL 是一种基于模型的数据分布差异近似方法,采用安全计算实现,其输出结果与明文匹配度超过 90%。在 ICU(重症监护病房)死亡率预测任务中,SKL 成功识别了对目标医院有益的数据合作伙伴,提升了下游分类器的性能。与“部分数据共享(中等泄露)”、“基于人口统计信息(低泄露)”或“盲选(高方差)”等替代方案相比,SKL 更稳健且可靠。所有参与方的数据均保持不共享状态,但整个数据集仍被充分利用,从而有效消除了医疗领域在有限资源下推动更广泛协作的关键障碍(将发表于 AAAI AIES 2025 [106])。 1. 私有模型与加密审计问题:随着越来越多的专有机器学习模型在输入与输出均被隐藏的场景中部署,公共机构能否在加密环境中审计私有数据?以医院急诊科分诊公平性审计为例,本论文展示了利用**门限同态加密(Threshold FHE)**的可行方案。该方案提供了一种定性框架,能够在无需解密私有数据的前提下,缓解监管方与数据持有方之间的紧张关系(已作为书章节发表 [175])。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【NTU博士论文】多模态神经三维资产合成
专知会员服务
9+阅读 · 9月30日
【CMU博士论文】动态环境中的高效机器学习
专知会员服务
20+阅读 · 9月14日
【博士论文】在缺失数据情况下的深度自监督学习
专知会员服务
35+阅读 · 2024年12月27日
【博士论文】连接状态和行动:迈向持续强化学习
专知会员服务
24+阅读 · 2024年1月31日
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
20+阅读 · 2019年8月20日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
Arxiv
0+阅读 · 10月30日
Arxiv
172+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
487+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员