SVP:一种用于深度学习的高效数据选择方法

2020 年 5 月 15 日 THU数据派

作者:Cody Coleman, Peter Bailis, and Matei Zaharia
翻译:杨毅远

本文约 2227字 ,建议阅读 6分钟
介绍 SVP方法如何在保证识别准确率的同时,有效地提高深度学习中计算效率。


本文主要介绍了SVP(Selection via proxy)方法。作为一种用于深度学习的数据选择方法,其可以在保证识别准确率的同时,有效地提高深度学习中计算效率。例如,在主动学习中,SVP运行速度最多可提高41.9倍,同时误差没有显著增加,这对于深度学习中提高模型训练速度来说是一个有效方法。


在许多任务中我们会用可获得的海量数据来训练深度网络,那么在实际训练中我们怎样可以快速确定应该使用哪些数据呢?像主动学习(active learning)和核心集选择(core-set selection)之类的数据选择方法是确定训练数据的强大手段,但是这些方法计算花销大且难以大规模使用。

在最近ICLR 2020的工作中 (https://openreview.net/pdf?id=HJg2b0VYDr) ,我们提出了一种将数据选择速度提高多达41.9倍的方法。我们使用一种规模较小、精度较差的模型作为规模较大目标模型的低代价的代理,并用此来选择用于训练的“核心”数据。尽管这些代理模型准确性较低,但它们选择的是不会对最终模型的准确性产生较大影响(通常在0.1%以内)的高质量数据。另外,在不影响ResNet-164模型准确性的情况下,上述代理模型可以清洗掉50%以上的CIFAR-10训练数据,从而使端到端模型的训练速度提升40%。

我们在ICLR 2020 (https://iclr.cc/)  上发表了关于SVP(selection via proxy)方法的论文,并且代码可在github中获得。

论文链接:

https://openreview.net/pdf?id=HJg2b0VYDr

代码链接:

https://github.com/stanford-futuredata/selection-via-proxy


直觉:模型架构对样本的排序相似


从宏观上来看,数据选择方法中的迭代过程包括以下三个步骤:

  1.  根据一些信息的度量(例如:熵)对样本进行排序;

  2.  选择排名最高的样本;

  3.  根据选定的样本更新模型。


其中第三步是深度学习的主要瓶颈。模型需要花费数小时甚至数天的时间进行训练,因此对于我们选择的每个样本,从头开始训练模型都不划算。在SVP背后我们核心见解是,虽然较大的模型更准确,但它们排序并且选择相似样本的能力跟规模更小、准确率更低的模型一样。

例如,下图显示了来自相似模型架构不同模型之间的相关程度。我们可以利用这些高相关性来创建代理模型,从而将数据选择速度提高一个数量级。


在ImageNet数据集下模型架构的排名。  上图为在ImageNet数据集上PyTorch预训练模型与最大熵排名之间的Spearman相关性。大多数模型架构之间相关性很高。例如,MobileNet V2基于熵的排名与ResNet50模型高度相关,尽管该模型参数要少得多(3.5M vs 25.6M)。

创建高效且有用的代理模型


我们探索了两种创建代理模型的主要方法:

  • 缩小网络规模


对于具有多层的深层模型,我们可以减小隐藏层的大小或数量,这是在权衡模型精度下减少训练时间的简单方法。例如,ResNet20模型在26分钟内在CIFAR10数据集中取得了7.6% 的 top-1误差,而更大的ResNet164模型花费了4小时才减少了2.5%的误差。


  • 训练轮数减少


在训练期间,大部分时间都花在了误差减少相对较小的时间段。例如,在训练ResNet20模型时,几乎一半的训练时间(26分钟中的12分钟)都花费在改进测试集的1.4%错误率上。基于这些观察,我们还研究了可以更快地获得目标模型决策边界的近似值并且使用较少迭代次数的代理训练模型。


结果


为了评估SVP对数据选择运行时间和质量的影响,我们将SVP使用在主动学习和核心集选择中来对于以下五个数据集进行数据选择:CIFAR10,CIFAR100,ImageNet,Amazon Review Polarity和Amazon Review Full。对于主动学习,SVP在数据集中达到了相似甚至更高的准确率,并且在标签预算(labeling budgets)的数据选择的运行时间上提升了多达41.9倍:
 


主动学习中的SVP表现。 使用最小置信度不确定性采样(通过不同的代理模型和在四个数据集上的标签预算)来进行3次主动学习的平均(±1std)数据选择加速。粗体的加速表明使用相同模型来进行选择和使用最终预测的基准方法的设置不是误差较低就是误差在平均top-1误差的1 std之内。在整个数据集中,SVP加快了数据选择速度的同时没有显著增加最终结果的误差。

对于核心集选择,代理模型在选择保持高精度数据子集时的性能几乎与目标模型相同甚至更好。

特别是在CIFAR10上,小规模代理模型删除了50%的数据,但不会影响在子集上训练的更大、更准确的模型的最终准确性。此外,在所有数据上训练代理模型,选择要保留的样本以及在子集上训练目标模型的整个过程仅花费了2小时23分钟,相比于在完整数据集上训练目标模型的标准方法,端到端的训练速度提高了1.6倍,如下图所示:


在有无代理选择数据的情况下,ResNet164(带有预激活)在CIFAR10上的训练曲线。 浅红色线表示训练代理模型(ResNet20)。红色实线表示在使用代理的图像子集上训练目标模型(ResNet164)。使用代理的方法,删除了50%的数据且不会影响ResNet164的最终准确性,将端到端的训练时间从3小时49分钟缩短到2小时23分钟。

总结


SVP方法可以通过在数据选择期间用计算花销小的代理模型来代替计算花销大的模型,从而提高了深度学习中主动学习和核心集选择的计算效率。在主动学习中,SVP的数据选择运行时间最多可提高41.9倍,同时误差没有显著增加(通常在0.1%以内);在核心集选择中,SVP可以从CIFAR10中删除多达50%的数据,并使训练目标模型花费的时间缩短为原来的十分之一,从而使端到端模型的训练速度提高1.6倍。

原文标题:

Selection via Proxy: Efficient Data Selection for Deep Learning

原文链接:
https://dawn.cs.stanford.edu/2020/04/23/selection-via-proxy/





译者简介




杨毅远,清华大学自动化系研一在读,本科毕业于华中科技大学自动化学院实验班,研究方向为工业过程检测中的AI算法。喜欢唱歌、喜欢接触新鲜事物的我对于“AI+”格外感兴趣;入门CV和数据挖掘的我,希望接触到更多非自己研究领域内的事物,拓宽自己的知识圈。


——END——


登录查看更多
1

相关内容

【干货书】高级应用深度学习,294页pdf
专知会员服务
153+阅读 · 2020年6月20日
基于深度学习的表面缺陷检测方法综述
专知会员服务
85+阅读 · 2020年5月31日
专知会员服务
199+阅读 · 2020年3月6日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
271+阅读 · 2020年1月1日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
【Strata Data Conference】用于自然语言处理的深度学习方法
专知会员服务
48+阅读 · 2019年9月23日
7个实用的深度学习技巧
机器学习算法与Python学习
16+阅读 · 2019年3月6日
一文概览用于图像分割的CNN
论智
14+阅读 · 2018年10月30日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
12+阅读 · 2018年3月30日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
手把手教你如何部署深度学习模型
全球人工智能
17+阅读 · 2018年2月5日
教程帖:深度学习模型的部署
论智
8+阅读 · 2018年1月20日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
Arxiv
45+阅读 · 2019年12月20日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
4+阅读 · 2017年7月25日
VIP会员
相关VIP内容
【干货书】高级应用深度学习,294页pdf
专知会员服务
153+阅读 · 2020年6月20日
基于深度学习的表面缺陷检测方法综述
专知会员服务
85+阅读 · 2020年5月31日
专知会员服务
199+阅读 · 2020年3月6日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
271+阅读 · 2020年1月1日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
【Strata Data Conference】用于自然语言处理的深度学习方法
专知会员服务
48+阅读 · 2019年9月23日
相关资讯
7个实用的深度学习技巧
机器学习算法与Python学习
16+阅读 · 2019年3月6日
一文概览用于图像分割的CNN
论智
14+阅读 · 2018年10月30日
资源 | 25个深度学习开源数据集
人工智能头条
4+阅读 · 2018年4月22日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
12+阅读 · 2018年3月30日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
手把手教你如何部署深度学习模型
全球人工智能
17+阅读 · 2018年2月5日
教程帖:深度学习模型的部署
论智
8+阅读 · 2018年1月20日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
相关论文
Arxiv
45+阅读 · 2019年12月20日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
4+阅读 · 2017年7月25日
Top
微信扫码咨询专知VIP会员