Data used to train machine learning (ML) models can be sensitive. Membership inference attacks (MIAs), attempting to determine whether a particular data record was used to train an ML model, risk violating membership privacy. ML model builders need a principled definition of a metric that enables them to quantify the privacy risk of (a) individual training data records, (b) independently of specific MIAs, (c) efficiently. None of the prior work on membership privacy risk metrics simultaneously meets all of these criteria. We propose such a metric, SHAPr, which uses Shapley values to quantify a model's memorization of an individual training data record by measuring its influence on the model's utility. This memorization is a measure of the likelihood of a successful MIA. Using ten benchmark datasets, we show that SHAPr is effective (precision: 0.94$\pm 0.06$, recall: 0.88$\pm 0.06$) in estimating susceptibility of a training data record for MIAs, and is efficient (computable within minutes for smaller datasets and in ~90 minutes for the largest dataset). SHAPr is also versatile in that it can be used for other purposes like assessing fairness or assigning valuation for subsets of a dataset. For example, we show that SHAPr correctly captures the disproportionate vulnerability of different subgroups to MIAs. Using SHAPr, we show that the membership privacy risk of a dataset is not necessarily improved by removing high risk training data records, thereby confirming an observation from prior work in a significantly extended setting (in ten datasets, removing up to 50% of data).


翻译:用于培训机器学习(ML) 模型的数据可以是敏感的。 身份推断攻击( MIAs), 试图确定是否使用特定的数据记录来培训 ML 模型, 有可能侵犯会员隐私。 ML 模型构建者需要一个原则性衡量标准定义, 使其能够量化(a) 个人培训数据记录, (b) 独立于特定 MIA 的隐私数据, (c) 效率。 先前关于会员隐私风险衡量标准的任何工作都没有同时满足所有这些标准。 我们建议采用这样一个衡量标准( SHAPr ), 使用 SHA 值来量化某个模型对个人培训数据记录的记忆化, 衡量其对模型效用的影响。 ML 模型构建者需要有一个原则性定义, 以衡量成功 MIA 数据记录的可能性。 使用10个基准数据集, 我们显示, SHAPr 有效( 精度: 0. 0. 94$ pm. 0. 06. 美元, 记得: 0.88\ pm 0.06 美元), 用于估算MIA 培训数据记录是否可靠, 的精确度, 并且高效( 可以在几分钟内对更小的 数据进行数据评估, 数据评估, IMA 更多的数据评估中, 也显示一个用于前数级数据评估, 的 Rrerealreabreal) 10 数据, 。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年4月2日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
88+阅读 · 2020年12月2日
ECCV 2020 五项大奖出炉!普林斯顿邓嘉获最佳论文奖
专知会员服务
17+阅读 · 2020年8月25日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
已删除
将门创投
4+阅读 · 2018年1月19日
Arxiv
0+阅读 · 2022年2月11日
Arxiv
0+阅读 · 2022年2月9日
Asymmetrical Vertical Federated Learning
Arxiv
3+阅读 · 2020年6月11日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关资讯
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
已删除
将门创投
4+阅读 · 2018年1月19日
Top
微信扫码咨询专知VIP会员