In the time of Big Data, training complex models on large-scale data sets is challenging, making it appealing to reduce data volume for saving computation resources by subsampling. Most previous works in subsampling are weighted methods designed to help the performance of subset-model approach the full-set-model, hence the weighted methods have no chance to acquire a subset-model that is better than the full-set-model. However, we question that how can we achieve better model with less data? In this work, we propose a novel Unweighted Influence Data Subsampling (UIDS) method, and prove that the subset-model acquired through our method can outperform the full-set-model. Besides, we show that overly confident on a given test set for sampling is common in Influence-based subsampling methods, which can eventually cause our subset-model's failure in out-of-sample test. To mitigate it, we develop a probabilistic sampling scheme to control the worst-case risk over all distributions close to the empirical distribution. The experiment results demonstrate our methods superiority over existed subsampling methods in diverse tasks, such as text classification, image classification, click-through prediction, etc.


翻译:在“大数据”时代,大规模数据集的培训复杂模型具有挑战性,因此,通过子抽样来减少数据量以节省计算资源,因此,培训大型数据集的复杂模型具有挑战性。在子抽样中,大多数以前的工作都是加权方法,旨在帮助子模型采用全套模型,因此加权方法没有机会获得比全套模型更好的子模型。然而,我们质疑我们如何用较少的数据取得更好的模型?在这项工作中,我们提出了一个新的“未加权数据分抽样(UIDS)”方法,并证明通过我们的方法获得的子模型能够超越全套模型。此外,我们表明,对特定抽样测试集过于自信,在基于影响的子模型方法中是常见的,这最终可能导致我们的子模型在全套模型测试中失败。为了减轻这一缺陷,我们制定了一种概率性抽样方法,以控制所有分布上最差的风险。实验结果表明,通过我们的方法优于全套模型,在多种任务中,例如文本分类,即图像的分类中,是分级的。

1
下载
关闭预览

相关内容

专知会员服务
77+阅读 · 2021年3月16日
应用机器学习书稿,361页pdf
专知会员服务
59+阅读 · 2020年11月24日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
专知会员服务
18+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
【经典书】统计学习导论,434页pdf,斯坦福大学
专知会员服务
235+阅读 · 2020年4月29日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年6月6日
Arxiv
0+阅读 · 2021年6月5日
Arxiv
38+阅读 · 2020年12月2日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关VIP内容
专知会员服务
77+阅读 · 2021年3月16日
应用机器学习书稿,361页pdf
专知会员服务
59+阅读 · 2020年11月24日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
专知会员服务
18+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
【经典书】统计学习导论,434页pdf,斯坦福大学
专知会员服务
235+阅读 · 2020年4月29日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员