Data minimization is a legal obligation defined in the European Union's General Data Protection Regulation (GDPR) as the responsibility to process an adequate, relevant, and limited amount of personal data in relation to a processing purpose. However, unlike fairness or transparency, the principle has not seen wide adoption for machine learning systems due to a lack of computational interpretation. In this paper, we build on literature in machine learning and law to propose the first learning framework for limiting data collection based on an interpretation that ties the data collection purpose to system performance. We formalize a data minimization criterion based on performance curve derivatives and provide an effective and interpretable piecewise power law technique that models distinct stages of an algorithm's performance throughout data collection. Results from our empirical investigation offer deeper insights into the relevant considerations when designing a data minimization framework, including the choice of feature acquisition algorithm, initialization conditions, as well as impacts on individuals that hint at tensions between data minimization and fairness.


翻译:尽量减少数据是欧洲联盟《一般数据保护条例》界定的一项法律义务,即有责任处理与处理目的有关的适当、相关和有限的个人数据,然而,与公平性或透明度不同,由于缺乏计算解释,该原则没有被广泛采用到机器学习系统;在本文中,我们以机器学习和法律方面的文献为基础,提出了第一个限制数据收集的学习框架,其依据是将数据收集目的与系统业绩联系起来的解释;我们正式确定了以性能曲线衍生物为基础的数据尽量减少标准,并提供了有效和可解释的、可解释的分层功率法技术,在数据收集过程中对算法不同阶段的性能进行模型;我们的经验调查结果更深入地揭示了在设计数据尽量减少框架时的相关考虑因素,包括特性获取算法的选择、初始条件,以及对暗示数据尽量减少与公平之间的紧张关系的个人的影响。

0
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
老铁,邀请你来免费学习人工智能!!!
量化投资与机器学习
4+阅读 · 2017年11月14日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
Arxiv
0+阅读 · 2021年9月20日
Arxiv
0+阅读 · 2021年9月16日
Arxiv
35+阅读 · 2021年8月2日
Arxiv
9+阅读 · 2021年3月25日
Arxiv
38+阅读 · 2020年3月10日
Learning From Positive and Unlabeled Data: A Survey
Arxiv
5+阅读 · 2018年11月12日
Arxiv
5+阅读 · 2017年4月12日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
老铁,邀请你来免费学习人工智能!!!
量化投资与机器学习
4+阅读 · 2017年11月14日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
相关论文
Arxiv
0+阅读 · 2021年9月20日
Arxiv
0+阅读 · 2021年9月16日
Arxiv
35+阅读 · 2021年8月2日
Arxiv
9+阅读 · 2021年3月25日
Arxiv
38+阅读 · 2020年3月10日
Learning From Positive and Unlabeled Data: A Survey
Arxiv
5+阅读 · 2018年11月12日
Arxiv
5+阅读 · 2017年4月12日
Top
微信扫码咨询专知VIP会员