The vast advances in Machine Learning over the last ten years have been powered by the availability of suitably prepared data for training purposes. The future of ML-enabled enterprise hinges on data. As such, there is already a vibrant market offering data annotation services to tailor sophisticated ML models. In this paper, we present research on the practical problem of obtaining data in order to improve the accuracy of ML models. We consider an environment in which consumers query for data to enhance the accuracy of their models and data providers who possess data make them available for training purposes. We first formalize this interaction process laying out the suitable framework and associated parameters for data exchange. We then propose two data acquisition strategies that consider a trade-off between exploration during which we obtain data to learn about the distribution of a provider's data and exploitation during which we optimize our data inquiries utilizing the gained knowledge. In the first strategy, Estimation and Allocation, we utilize queries to estimate the utilities of various predicates while learning about the distribution of the provider's data; then we proceed to the allocation stage in which we utilize those learned utility estimates to inform our data acquisition decisions. The second algorithmic proposal, named Sequential Predicate Selection, utilizes a sampling strategy to explore the distribution of the provider's data, adaptively investing more resources to parts of the data space that are statistically more promising to improve overall model accuracy. We present a detailed experimental evaluation of our proposals utilizing a variety of ML models and associated real data sets exploring all applicable parameters of interest. We identify trade-offs and highlight the relative benefits of each algorithm to further optimize model accuracy.
翻译:过去十年来,机器学习的巨大进步得益于为培训目的提供有适当准备的数据。ML支持的企业的未来取决于数据。因此,已经有一个充满活力的市场,提供数据说明服务,以调整先进的ML模型。在本文件中,我们介绍了为改进ML模型的准确性而获取数据的实际问题研究。我们考虑了一种环境,即消费者询问数据以提高其模型的准确性,拥有数据的数据提供者为培训目的提供数据。我们首先正式确定了这一互动进程,为数据交换规定了适当的框架和相关参数。然后我们提出了两个数据获取战略,考虑在探索期间进行交换,以便获取数据,了解供应商数据的分配情况,利用获得的知识优化数据调查。在第一个战略中,我们利用查询来估计各种上游数据的效用,同时了解提供者数据的分布情况;我们接着进入分配阶段,我们利用这些学到的效用估计数来为我们的数据获取决定提供数据的适当框架和相关参数。第二个算法建议,即利用更精确的统计数据分析部分,利用更精确的统计数据进行更精确性分析,然后利用更精确的统计数据分配方法,利用更详尽的统计数据分配方法,利用对数据进行更精确的统计分析,然后对数据进行数据进行更详细的分析,然后对数据进行更详细的分析,然后对数据进行数据进行更详细的分析,然后对数据进行更详细的分析,然后对数据进行更详细的分析,然后对数据分析,然后将数据进行更详细的分析,然后对数据进行更精确地进行详细的分析,对数据分析,对数据进行更详细的分析,对数据进行更详细的分析,对数据进行详细的分析,对数据进行详细的分析,对数据进行详细的分析,然后对数据进行详细的分析,对数据进行详细的分析,对数据进行详细的分析,然后对数据分析,对数据分析,对数据进行详细的分析,然后对数据进行详细的分析,然后对数据分析,然后对数据进行详细的分析,然后对数据进行详细的分析,对数据分析,对数据分析,然后对数据分析,然后对数据分析,对数据分析,对数据进行进行进行进行进行更详细的分析,然后对数据分析,对数据分析,然后对数据分析,对数据分析,对数据分析,然后对数据分析,对数据进行更细进行更细分析,对数据分析,对数据分析,对数据分析,然后对数据分析,对数据分析,对数据分析,对数据分析,对数据