The vast advances in Machine Learning over the last ten years have been powered by the availability of suitably prepared data for training purposes. The future of ML-enabled enterprise hinges on data. As such, there is already a vibrant market offering data annotation services to tailor sophisticated ML models. In this paper, we present research on the practical problem of obtaining data in order to improve the accuracy of ML models. We consider an environment in which consumers query for data to enhance the accuracy of their models and data providers who possess data make them available for training purposes. We first formalize this interaction process laying out the suitable framework and associated parameters for data exchange. We then propose two data acquisition strategies that consider a trade-off between exploration during which we obtain data to learn about the distribution of a provider's data and exploitation during which we optimize our data inquiries utilizing the gained knowledge. In the first strategy, Estimation and Allocation, we utilize queries to estimate the utilities of various predicates while learning about the distribution of the provider's data; then we proceed to the allocation stage in which we utilize those learned utility estimates to inform our data acquisition decisions. The second algorithmic proposal, named Sequential Predicate Selection, utilizes a sampling strategy to explore the distribution of the provider's data, adaptively investing more resources to parts of the data space that are statistically more promising to improve overall model accuracy. We present a detailed experimental evaluation of our proposals utilizing a variety of ML models and associated real data sets exploring all applicable parameters of interest. We identify trade-offs and highlight the relative benefits of each algorithm to further optimize model accuracy.


翻译:过去十年来,机器学习的巨大进步得益于为培训目的提供有适当准备的数据。ML支持的企业的未来取决于数据。因此,已经有一个充满活力的市场,提供数据说明服务,以调整先进的ML模型。在本文件中,我们介绍了为改进ML模型的准确性而获取数据的实际问题研究。我们考虑了一种环境,即消费者询问数据以提高其模型的准确性,拥有数据的数据提供者为培训目的提供数据。我们首先正式确定了这一互动进程,为数据交换规定了适当的框架和相关参数。然后我们提出了两个数据获取战略,考虑在探索期间进行交换,以便获取数据,了解供应商数据的分配情况,利用获得的知识优化数据调查。在第一个战略中,我们利用查询来估计各种上游数据的效用,同时了解提供者数据的分布情况;我们接着进入分配阶段,我们利用这些学到的效用估计数来为我们的数据获取决定提供数据的适当框架和相关参数。第二个算法建议,即利用更精确的统计数据分析部分,利用更精确的统计数据进行更精确性分析,然后利用更精确的统计数据分配方法,利用更详尽的统计数据分配方法,利用对数据进行更精确的统计分析,然后对数据进行数据进行更详细的分析,然后对数据进行更详细的分析,然后对数据进行数据进行更详细的分析,然后对数据进行更详细的分析,然后对数据进行更详细的分析,然后对数据分析,然后将数据进行更详细的分析,然后对数据进行更精确地进行详细的分析,对数据分析,对数据进行更详细的分析,对数据进行更详细的分析,对数据进行详细的分析,对数据进行详细的分析,对数据进行详细的分析,然后对数据进行详细的分析,对数据进行详细的分析,对数据进行详细的分析,然后对数据分析,对数据分析,对数据进行详细的分析,然后对数据进行详细的分析,然后对数据分析,然后对数据进行详细的分析,然后对数据进行详细的分析,对数据分析,对数据分析,然后对数据分析,然后对数据分析,对数据分析,对数据进行进行进行进行进行更详细的分析,然后对数据分析,对数据分析,然后对数据分析,对数据分析,对数据分析,然后对数据分析,对数据进行更细进行更细分析,对数据分析,对数据分析,对数据分析,然后对数据分析,对数据分析,对数据分析,对数据分析,对数据

0
下载
关闭预览

相关内容

数据获取是指利用一种装置,将来自各种数据源的数据自动收集到一个装置中。
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Arxiv
43+阅读 · 2019年12月20日
Techniques for Automated Machine Learning
Arxiv
4+阅读 · 2019年7月21日
Arxiv
18+阅读 · 2019年1月16日
Interpretable Active Learning
Arxiv
3+阅读 · 2018年6月24日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
相关论文
Top
微信扫码咨询专知VIP会员