过去的十年见证了大型机器学习(ML)模型的巨大成功。对海量数据的访问在这一成功中发挥了关键作用。俗话说,“数据是新石油”,它为ML引擎提供动力。因此,在关键行业,如IT、金融、生物医学等,生成、购买或销售数据的竞争成为日益增长的趋势。然而,与开发数据驱动的机器学习模型的广泛研究相比,对数据本身的研究——例如,如何获取、评估、交换和价格数据——却很少被探索,事实上,最近才开始。原则性地理解数据本身对于促进数据的创建、填充和使用至关重要。
本教程的目标是让你了解最近关于数据价值的研究,从统计学和经济学的角度,如何有效地为数据或信息定价,以及如何从经济代理人那里收集数据。对于每个方面,我们将描述基本概念、当前状态或关键结果,以及开放问题。
在简要介绍之后,本教程分为三个部分,分别从该领域的三个关键利益相关者的角度进行介绍:数据买家,数据卖家和ML供应商。第一部分站在数据购买者的角度,涵盖了数据价值建模的统计方法和经济方法。第二部分从数据卖家的角度出发,讨论了最近关于如何给数据定价以及如何通过汇总人群信息来收集数据的工作。最后,讨论了ML供应商的市场和竞争。