The vast advances in Machine Learning over the last ten years have been powered by the availability of suitably prepared data for training purposes. The future of ML-enabled enterprise hinges on data. As such, there is already a vibrant market offering data annotation services to tailor sophisticated ML models. In this paper, we present research on the practical problem of obtaining data in order to improve the accuracy of ML models. We consider an environment in which consumers query for data to enhance the accuracy of their models and data providers who possess data make them available for training purposes. We first formalize this interaction process laying out the suitable framework and associated parameters for data exchange. We then propose two data acquisition strategies that consider a trade-off between exploration during which we obtain data to learn about the distribution of a provider's data and exploitation during which we optimize our data inquiries utilizing the gained knowledge. In the first strategy, Estimation and Allocation, we utilize queries to estimate the utilities of various predicates while learning about the distribution of the provider's data; then we proceed to the allocation stage in which we utilize those learned utility estimates to inform our data acquisition decisions. The second algorithmic proposal, named Sequential Predicate Selection, utilizes a sampling strategy to explore the distribution of the provider's data, adaptively investing more resources to parts of the data space that are statistically more promising to improve overall model accuracy. We present a detailed experimental evaluation of our proposals utilizing a variety of ML models and associated real data sets exploring all applicable parameters of interest. We identify trade-offs and highlight the relative benefits of each algorithm to further optimize model accuracy.


翻译:过去十年来,机器学习的巨大进步得益于为培训目的提供有适当准备的数据。ML支持的企业的未来取决于数据。因此,已经有一个充满活力的市场,提供数据说明服务,以调整先进的ML模型。在本文件中,我们介绍了为改进ML模型的准确性而获取数据的实际问题研究。我们考虑了一种环境,即消费者询问数据以提高其模型的准确性,拥有数据的数据提供者为培训目的提供数据。我们首先正式确定了这一互动进程,为数据交换规定了适当的框架和相关参数。然后我们提出了两个数据获取战略,考虑在探索期间进行交换,以便获取数据,了解供应商数据的分配情况,利用获得的知识优化数据调查。在第一个战略中,我们利用查询来估计各种上游数据的效用,同时了解提供者数据的分布情况;我们接着进入分配阶段,我们利用这些学到的效用估计数来为我们的数据获取决定提供数据的适当框架和相关参数。第二个算法建议,即利用更精确的统计数据分析部分,利用更精确的统计数据进行更精确性分析,然后利用更精确的统计数据分配方法,利用更详尽的统计数据分配方法,利用对数据进行更精确的统计分析,然后对数据进行数据进行更详细的分析,然后对数据进行更详细的分析,然后对数据进行数据进行更详细的分析,然后对数据进行更详细的分析,然后对数据进行更详细的分析,然后对数据分析,然后将数据进行更详细的分析,然后对数据进行更精确地进行详细的分析,对数据分析,对数据进行更详细的分析,对数据进行更详细的分析,对数据进行详细的分析,对数据进行详细的分析,对数据进行详细的分析,然后对数据进行详细的分析,对数据进行详细的分析,对数据进行详细的分析,然后对数据分析,对数据分析,对数据进行详细的分析,然后对数据进行详细的分析,然后对数据分析,然后对数据进行详细的分析,然后对数据进行详细的分析,对数据分析,对数据分析,然后对数据分析,然后对数据分析,对数据分析,对数据进行进行进行进行进行更详细的分析,然后对数据分析,对数据分析,然后对数据分析,对数据分析,对数据分析,然后对数据分析,对数据进行更细进行更细分析,对数据分析,对数据分析,对数据分析,然后对数据分析,对数据分析,对数据分析,对数据分析,对数据

0
下载
关闭预览

相关内容

数据获取是指利用一种装置,将来自各种数据源的数据自动收集到一个装置中。
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
老铁,邀请你来免费学习人工智能!!!
量化投资与机器学习
4+阅读 · 2017年11月14日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Arxiv
1+阅读 · 2021年7月16日
Arxiv
45+阅读 · 2019年12月20日
Techniques for Automated Machine Learning
Arxiv
4+阅读 · 2019年7月21日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
6+阅读 · 2018年12月10日
Learning From Positive and Unlabeled Data: A Survey
Arxiv
5+阅读 · 2018年11月12日
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
老铁,邀请你来免费学习人工智能!!!
量化投资与机器学习
4+阅读 · 2017年11月14日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
相关论文
Arxiv
1+阅读 · 2021年7月16日
Arxiv
45+阅读 · 2019年12月20日
Techniques for Automated Machine Learning
Arxiv
4+阅读 · 2019年7月21日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
6+阅读 · 2018年12月10日
Learning From Positive and Unlabeled Data: A Survey
Arxiv
5+阅读 · 2018年11月12日
Mobile big data analysis with machine learning
Arxiv
6+阅读 · 2018年8月2日
Top
微信扫码咨询专知VIP会员