【ETH博士论文】机器学习数据估值算法与应用研究进展，225页pdf

“我的数据到底有多大价值？”这是组织和个人越来越常提出的一个问题。回答这个问题可以，例如，公平地在多个数据贡献者之间分配利润，确定数据泄露发生时的预期赔偿。本博士论文首次尝试对数据估值进行了深入研究，提出了一个基于Shapley值的原则性框架，Shapley值是起源于合作博弈论的一种流行的价值观念。首先，我们证明Shapley值定义了一种满足多种数据价值期望（desiderata）的唯一支付方案。然而，Shapley值通常需要指数时间来计算。为了应对这一挑战，我们提出了用于近似Shapley值的高效算法，并为一般机器学习（ML）效用提供了可证明的误差界限。除了理论上的健壮性，我们的实证发现表明Shapley值与人们对数据价值的直观理解是一致的。

其次，我们提出了一组用于计算KNN分类和回归的精确Shapley值的高效算法。我们展示了精确算法和KNN Shapley的近似算法都可以扩展到数百万个数据点，使它们适用于常见的机器学习数据集的数据估值。最后，我们探讨了数据市场面临的实际挑战，主要集中在两个主要问题：在私有数据上训练机器学习模型，以及策划专门化和复杂的数据集。为了研究并解决这些挑战，我们展示了一个私有数据市场的去中心化设计，并激励了一个真实世界生态数据集基准的创建。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】超越模型效率:机器学习系统的数据优化，147页pdf

专知会员服务

53+阅读 · 2023年7月1日

【Arizona博士论文】可解释自然语言处理及其在信息抽取中的应用，125页pdf

专知会员服务

36+阅读 · 2023年3月2日

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

专知会员服务

40+阅读 · 2023年2月22日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知会员服务

76+阅读 · 2022年9月6日