With the rapid growth of data, it is becoming increasingly difficult to train or improve deep learning models with the right subset of data. We show that this problem can be effectively solved at an additional labeling cost by targeted data subset selection(TSS) where a subset of unlabeled data points similar to an auxiliary set are added to the training data. We do so by using a rich class of Submodular Mutual Information (SMI) functions and demonstrate its effectiveness for image classification on CIFAR-10 and MNIST datasets. Lastly, we compare the performance of SMI functions for TSS with other state-of-the-art methods for closely related problems like active learning. Using SMI functions, we observe ~20-30% gain over the model's performance before re-training with added targeted subset; ~12% more than other methods.


翻译:随着数据迅速增长,培训或改进深层次学习模式和正确的数据子集变得日益困难。我们表明,通过有针对性的数据子集选择(TSS),在培训数据中添加了类似于辅助数据集的未贴标签数据点子集,可以以额外的标签成本来有效解决这一问题。我们这样做的方法是使用丰富的子模块相互信息功能,并展示其在CIFAR-10和MNIST数据集图像分类方面的效力。最后,我们比较了TSS的SMI功能的性能与其他最先进的问题方法,如积极学习问题。我们使用SMI功能,观察到在以附加目标子集进行再培训之前,在模型的性能上取得了大约20-30%的收益;比其他方法多出12%。

0
下载
关闭预览

相关内容

国际形状建模(SMI)会议它提供了一个国际论坛,用于向社区传播新的数学理论和计算技术,以建模、模拟和处理形状及其特性的数字表示形式来自广泛领域的研究人员,开发人员,学生和从业人员。会议论文集(长篇和短篇论文)将发表在《 Elsevier》的《 Computer&Graphics Journal》上。在形状建模及其应用的所有领域,都在寻求提供原创研究的论文。 官网地址:http://dblp.uni-trier.de/db/conf/smi/
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
48+阅读 · 2019年9月24日
已删除
将门创投
5+阅读 · 2020年3月2日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2020年3月2日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员