“我的数据到底有多大价值?”这是组织和个人越来越常提出的一个问题。回答这个问题可以,例如,公平地在多个数据贡献者之间分配利润,确定数据泄露发生时的预期赔偿。本博士论文首次尝试对数据估值进行了深入研究,提出了一个基于Shapley值的原则性框架,Shapley值是起源于合作博弈论的一种流行的价值观念。 首先,我们证明Shapley值定义了一种满足多种数据价值期望(desiderata)的唯一支付方案。然而,Shapley值通常需要指数时间来计算。为了应对这一挑战,我们提出了用于近似Shapley值的高效算法,并为一般机器学习(ML)效用提供了可证明的误差界限。除了理论上的健壮性,我们的实证发现表明Shapley值与人们对数据价值的直观理解是一致的。

其次,我们提出了一组用于计算KNN分类和回归的精确Shapley值的高效算法。我们展示了精确算法和KNN Shapley的近似算法都可以扩展到数百万个数据点,使它们适用于常见的机器学习数据集的数据估值。 最后,我们探讨了数据市场面临的实际挑战,主要集中在两个主要问题:在私有数据上训练机器学习模型,以及策划专门化和复杂的数据集。为了研究并解决这些挑战,我们展示了一个私有数据市场的去中心化设计,并激励了一个真实世界生态数据集基准的创建。

成为VIP会员查看完整内容
35

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】机器学习模型调试的有效工具,149页pdf
专知会员服务
47+阅读 · 2023年3月29日
《基于微分优化的机器学习建模》CMU 156页博士论文
专知会员服务
27+阅读 · 2022年12月19日
【MIT博士论文】异构医疗数据表示学习,193页pdf
专知会员服务
52+阅读 · 2022年9月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员