一次性神经架构搜索(NAS)通过权重共享显著提高了计算效率。然而,这种方法也在超网络训练(架构搜索阶段)中引入了多模型遗忘,在超网络训练中,当使用部分共享的权重顺序训练新架构时,之前架构的性能会下降。为了克服这种灾难性遗忘,最先进的方法假设共享权值在联合优化后验概率时是最优的。然而,这种严格的假设在实践中并不一定适用于一次性NAS。在本文中,我们将一次性NAS中的超网络训练描述为一个持续学习的约束优化问题,即当前架构的学习不应该降低以前架构的性能。提出了一种基于新搜索的结构选择损失函数,并证明了在最大化所选约束的多样性时,不需要严格的假设就可以计算后验概率。设计了一种贪心查新方法,寻找最具代表性的子集,对超网络训练进行正则化。我们将我们提出的方法应用于两个一次性的NAS基线,随机抽样NAS (RandomNAS)和基于梯度的抽样NAS (GDAS)。大量的实验证明,我们的方法提高了超级网络在一次NAS中的预测能力,并在CIFAR-10、CIFAR-100和PTB上取得了显著的效率。

成为VIP会员查看完整内容
0
18

相关内容

CVPR is the premier annual computer vision event comprising the main conference and several co-located workshops and short courses. With its high quality and low cost, it provides an exceptional value for students, academics and industry researchers. CVPR 2020 will take place at The Washington State Convention Center in Seattle, WA, from June 16 to June 20, 2020. http://cvpr2020.thecvf.com/

由于硬件资源有限,深度学习模型的训练目标通常是在训练和推理的时间和内存限制下最大化准确性。在这种情况下,我们研究了模型大小的影响,关注于计算受限的NLP任务的Transformer模型:自监督的预训练和高资源机器翻译。我们首先展示了,尽管较小的Transformer模型在每次迭代中执行得更快,但更广、更深入的模型在显著更少的步骤中收敛。此外,这种收敛速度通常超过了使用更大模型的额外计算开销。因此,计算效率最高的训练策略是反直觉地训练非常大的模型,但在少量迭代后停止。

这导致了大型Transformer 模型的训练效率和小型Transformer 模型的推理效率之间的明显权衡。然而,我们表明大模型比小模型在压缩技术(如量化和剪枝)方面更健壮。因此,一个人可以得到最好的两个好处: 重压缩,大模型比轻压缩,小模型获得更高的准确度

https://www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a

概述:

在当前的深度学习范式中,使用更多的计算(例如,增加模型大小、数据集大小或训练步骤)通常会导致更高的模型准确度(brock2018large;raffel2019exploring)。最近自监督预训练的成功进一步论证了这种趋势经模型。因此,计算资源日益成为提高模型准确度的关键制约因素。这个约束导致模型训练的(通常是隐含的)目标是最大化计算效率:如何在固定的硬件和训练时间下达到最高的模型准确度。

最大化计算效率需要重新考虑关于模型训练的常见假设。特别是,有一个典型的隐式假设,即模型必须经过训练直到收敛,这使得较大的模型在有限的计算预算下显得不太可行。我们通过展示以收敛为代价来增加模型大小的机会来挑战这一假设。具体地说,我们表明,训练Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止训练。

在我们的实验中,我们改变了Transformer模型的宽度和深度,并在自监督的预训练(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上训练)和机器翻译(WMT14英语→法语)上评估了它们的训练时间和准确性。对于这些任务,我们首先展示了更大的模型比更小的模型在更少的梯度更新中收敛到更低的验证错误(第3节)。此外,这种收敛速度的增加超过了使用更大模型所带来的额外计算开销——计算效率最高的模型是非常大的,并且远远不能收敛(例如,图2,左)。我们还表明,收敛的加速主要是参数计数的函数,只有模型宽度、深度和批大小的微弱影响。

虽然较大的模型训练速度更快,但它们也增加了推理的计算和内存需求。这种增加的成本在现实应用中尤其成问题,推理成本占训练成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,对于RoBERTa来说,这种明显的权衡可以与压缩相协调:与小型模型相比,大型模型在压缩方面更加健壮(第4节)。因此,使用可比较的推理成本,大型重压缩的模型优于小型轻压缩的模型(例如,图2,右)。

成为VIP会员查看完整内容
0
45

小样本学习(FSL)近年来引起了越来越多的关注,但仍然具有挑战性,因为学习从少数例子中归纳的固有困难。本文提出了一种自适应间隔原则,以提高基于度量的元学习方法在小样本学习问题中的泛化能力。具体地说,我们首先开发了一个与类相关的加性边缘损失算法,该算法考虑了每对类之间的语义相似性,从而将特征嵌入空间中的样本从相似的类中分离出来。此外,我们在抽样训练任务中加入所有类别之间的语义上下文,并开发了与任务相关的附加间隔损失,以更好地区分不同类别的样本。我们的自适应间隔方法可以很容易地推广到更现实的广义FSL设置。大量的实验表明,在标准FSL和通用FSL设置下,所提出的方法可以提高现有基于度量的元学习方法的性能。

成为VIP会员查看完整内容
0
66

从少数样本中发现稀有物体是一个新出现的问题。先前的研究表明元学习工是一个很有前途的方法。但是,微调技术还没有引起足够的重视。我们发现,在小样本目标检测任务中,仅对稀有类上现有检测器的最后一层进行微调是至关重要的。这种简单的方法比元学习方法在当前基准上的表现高出约2 ~ 20点,有时甚至比以前的方法的准确度还要高出一倍。然而,少数样本的高方差常常导致现有基准的不可靠性。我们通过对多组训练样本进行抽样,以获得稳定的比较,并在PASCAL VOC、COCO和LVIS三个数据集的基础上建立新的基准。同样,我们的微调方法在修订基准上建立了一种新的技术状态。代码和预训练的模型可以在https://github.com/ucbdrive/few-shot-object-detection找到。

成为VIP会员查看完整内容
0
71

组合优化是计算机视觉的常用方法。例如,在诸如语义分割、人体姿态估计和动作识别等应用中,为解决条件随机域(CRFs)中的推理问题而编写的程序可以生成与图像视觉特征一致的结构化输出。然而,在CRFs中求解推理通常是棘手的,而近似方法在计算上要求很高,并且仅限于一元的、成对的和手工制作的高阶势形式。在这篇论文中,我们证明了我们可以学习程序启发式。策略,用于解决高阶CRFs中推理任务的语义分割,采用强化学习。我们的方法有效地解决了推理任务,而没有对势的形式施加任何约束。我们在Pascal VOC和MOTS数据集上展示了引人注目的结果。

成为VIP会员查看完整内容
0
35

当对一系列学习问题进行优化时,卷积神经网络会经历灾难性的遗忘:当满足当前训练示例的目标时,它们在以前任务中的性能会急剧下降。在这项工作中,我们介绍了一个基于条件计算的新的框架来解决这个问题。

成为VIP会员查看完整内容
0
14

无监督域自适应(UDA)是在给定源域上有标记数据的情况下,对目标域上的无标记数据进行预测。主流的UDA方法学习这两个域之间的对齐特征,这样一个训练在源特征上的分类器可以很容易地应用到目标特征上。但是,这种转移策略有可能破坏目标数据的内在辨别能力。为了缓解这种风险,我们基于结构域相似度的假设,提出通过对目标数据进行判别聚类,直接发现目标的内在歧视。我们利用基于结构域相似性的结构源正则化约束聚类解。在技术上,我们使用了一个灵活的基于判别聚类的深度网络框架,使网络的预测标签分布与引入的辅助标签分布之间的KL分歧最小化;用源数据的基真标签形成的辅助分布代替辅助分布,通过简单的联合网络训练策略实现了结构源的正则化。我们将提出的方法称为结构正则化深度聚类(SRDC),其中我们还使用中间网络特征的聚类来增强目标识别,并使用较少发散的源实例的软选择来增强结构正则化。仔细的消融研究显示了我们提出的SRDC的疗效。值得注意的是,在没有显式域对齐的情况下,SRDC在三个UDA基准上的性能优于所有现有方法。

成为VIP会员查看完整内容
0
44

由于硬件资源有限,训练深度学习模型的目标通常是在训练和推理的时间和记忆约束下使准确性最大化。在这种情况下,我们研究了模型大小的影响,重点研究了受计算限制的NLP任务的Transformer模型:自我监督的预训练和高资源机器翻译。我们首先表明,尽管较小的Transformer模型在每次迭代中执行得更快,但是更广泛和更深入的模型在更少的步骤中收敛。此外,这种收敛速度通常超过使用大型模型的额外计算开销。因此,最具计算效率的训练策略是反直觉地训练非常大的模型,但是在少量的迭代之后停止。

这导致大型Transformer 模型的训练效率与小型Transformer 模型的推理效率之间存在明显的权衡。然而,我们证明大型模型比小型模型对量化和剪枝等压缩技术有更强的鲁棒性。因此,我们可以同时利用两个方面的优势:高度压缩的大型模型比轻度压缩的小型模型获得更高的精度。

成为VIP会员查看完整内容
0
25

Dropout是一种广泛使用的正则化技术,通常需要为许多体系结构获得最先进的技术。这项工作表明,dropout引入了两种截然不同但相互纠缠的正则化效应:由于dropout修改了预期的训练目标而产生的显式效应(在之前的工作中也研究过),以及可能令人惊讶的是,dropout训练更新中的随机性带来的另一种隐式效应。这种隐式正则化效应类似于小批量随机梯度下降中的随机度效应。我们通过控制实验把这两种效应分开。然后,我们推导出分析的简化,用模型的导数和损失来描述每个影响,对于深度神经网络。我们证明了这些简化的、解析的正则化器准确地捕获了辍学的重要方面,表明它们在实践中忠实地替代了dropout。

成为VIP会员查看完整内容
0
24
小贴士
相关VIP内容
相关资讯
利用神经网络进行序列到序列转换的学习
AI研习社
7+阅读 · 2019年4月26日
介绍高维超参数调整 - 优化ML模型的最佳实践
AI研习社
5+阅读 · 2019年4月17日
FAIR&MIT提出知识蒸馏新方法:数据集蒸馏
机器之心
5+阅读 · 2019年2月7日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
8+阅读 · 2019年1月18日
误差反向传播——RNN
统计学习与视觉计算组
17+阅读 · 2018年9月6日
相关论文
Imitation Learning for Fashion Style Based on Hierarchical Multimodal Representation
Shizhu Liu,Shanglin Yang,Hui Zhou
7+阅读 · 2020年4月13日
Shangwen Lv,Yuechen Wang,Daya Guo,Duyu Tang,Nan Duan,Fuqing Zhu,Ming Gong,Linjun Shou,Ryan Ma,Daxin Jiang,Guihong Cao,Ming Zhou,Songlin Hu
10+阅读 · 2020年4月12日
Language as an Abstraction for Hierarchical Deep Reinforcement Learning
Yiding Jiang,Shixiang Gu,Kevin Murphy,Chelsea Finn
5+阅读 · 2019年6月18日
Dynamic Transfer Learning for Named Entity Recognition
Parminder Bhatia,Kristjan Arumae,Busra Celikkaya
5+阅读 · 2019年5月1日
Alexander Fritzler,Varvara Logacheva,Maksim Kretov
6+阅读 · 2018年12月14日
Peter Shaw,Jakob Uszkoreit,Ashish Vaswani
27+阅读 · 2018年4月12日
Ankan Bansal,Karan Sikka,Gaurav Sharma,Rama Chellappa,Ajay Divakaran
6+阅读 · 2018年4月12日
Petar Veličković,Guillem Cucurull,Arantxa Casanova,Adriana Romero,Pietro Liò,Yoshua Bengio
8+阅读 · 2018年2月4日
Kerem C. Tezcan,Christian F. Baumgartner,Ender Konukoglu
4+阅读 · 2018年1月17日
Shafin Rahman,Salman H. Khan,Fatih Porikli
3+阅读 · 2017年10月26日
Top
微信扫码咨询专知VIP会员