“我的数据到底有多大价值?”这是组织和个人越来越常提出的一个问题。回答这个问题可以,例如,公平地在多个数据贡献者之间分配利润,确定数据泄露发生时的预期赔偿。本博士论文首次尝试对数据估值进行了深入研究,提出了一个基于Shapley值的原则性框架,Shapley值是起源于合作博弈论的一种流行的价值观念。 首先,我们证明Shapley值定义了一种满足多种数据价值期望(desiderata)的唯一支付方案。然而,Shapley值通常需要指数时间来计算。为了应对这一挑战,我们提出了用于近似Shapley值的高效算法,并为一般机器学习(ML)效用提供了可证明的误差界限。除了理论上的健壮性,我们的实证发现表明Shapley值与人们对数据价值的直观理解是一致的。
其次,我们提出了一组用于计算KNN分类和回归的精确Shapley值的高效算法。我们展示了精确算法和KNN Shapley的近似算法都可以扩展到数百万个数据点,使它们适用于常见的机器学习数据集的数据估值。 最后,我们探讨了数据市场面临的实际挑战,主要集中在两个主要问题:在私有数据上训练机器学习模型,以及策划专门化和复杂的数据集。为了研究并解决这些挑战,我们展示了一个私有数据市场的去中心化设计,并激励了一个真实世界生态数据集基准的创建。