题目: On the Generalization Benefit of Noise in Stochastic Gradient Descent

摘要:

长期以来一直有人认为,在深度神经网络中,小批量随机梯度下降比大批量梯度下降具有更好的泛化能力。但是,最近的论文对此主张提出了质疑,认为这种影响仅是批处理量较大时超优化超参数调整或计算预算不足的结果。在本文中,我们对一系列流行的模型进行了精心设计的实验并进行了严格的超参数扫描,这证明了小批量或中等批量都可以大大胜过测试集上的超大批量。即使两个模型都经过相同数量的迭代训练并且大批量实现较小的训练损失时,也会发生这种情况。我们的结果证实,随机梯度中的噪声可以增强泛化能力。我们研究最佳学习率时间表如何随着epoch budget的增长而变化,并基于SGD动力学的随机微分方程视角为我们的观察提供理论解释。

成为VIP会员查看完整内容
0
15

相关内容

随机梯度下降,按照数据生成分布抽取m个样本,通过计算他们梯度的平均值来更新梯度。

题目:

Confidence-Aware Learning for Deep Neural Networks

简介:

尽管深度神经网络可以执行多种任务,但过分一致的预测问题限制了它们在许多安全关键型应用中的实际应用。已经提出了许多新的工作来减轻这个问题,但是大多数工作需要在训练和/或推理阶段增加计算成本,或者需要定制的体系结构来分别输出置信估计。在本文中,我们提出了一种使用新的损失函数训练深度神经网络的方法,称为正确排名损失,该方法将类别概率显式规范化,以便根据依据的有序等级更好地进行置信估计。所提出的方法易于实现,并且无需进行任何修改即可应用于现有体系结构。而且,它的训练计算成本几乎与传统的深度分类器相同,并且通过一次推断就可以输出可靠的预测。在分类基准数据集上的大量实验结果表明,所提出的方法有助于网络产生排列良好的置信度估计。我们还证明,它对于与置信估计,分布外检测和主动学习密切相关的任务十分有效。

成为VIP会员查看完整内容
0
41

有噪声矩阵补全的目的是估计一个低秩矩阵只给出部分和损坏的项。尽管在设计有效的估计算法方面取得了实质性的进展,但如何评估所获得估计的不确定性以及如何对未知矩阵执行统计推断(例如,为一个未见的条目构造一个有效的和短的置信区间)仍在很大程度上不清楚。这篇报告向有噪声矩阵补全的推理和不确定性量化迈出了一步。我们开发了一个简单的方法来补偿广泛使用的凸估计量和非凸估计量的偏差。所得到的去偏估计量承认了近乎精确的非渐近分布特征,这进而使得诸如缺失项和低秩因子的置信区间/区域的最优构造成为可能。我们的推理过程不依赖于样本分裂,从而避免了数据效率的不必要损失。作为一个副产品,我们得到了对我们的去偏估计的估计精度的一个清晰的表征,据我们所知,这是第一个可证明实现完全统计效率(包括前置常数)的可控算法。本文的分析建立在凸和非凸优化之间的密切联系上。

成为VIP会员查看完整内容
0
32

由于硬件资源有限,训练深度学习模型的目标通常是在训练和推理的时间和记忆约束下使准确性最大化。在这种情况下,我们研究了模型大小的影响,重点研究了受计算限制的NLP任务的Transformer模型:自我监督的预训练和高资源机器翻译。我们首先表明,尽管较小的Transformer模型在每次迭代中执行得更快,但是更广泛和更深入的模型在更少的步骤中收敛。此外,这种收敛速度通常超过使用大型模型的额外计算开销。因此,最具计算效率的训练策略是反直觉地训练非常大的模型,但是在少量的迭代之后停止。

这导致大型Transformer 模型的训练效率与小型Transformer 模型的推理效率之间存在明显的权衡。然而,我们证明大型模型比小型模型对量化和剪枝等压缩技术有更强的鲁棒性。因此,我们可以同时利用两个方面的优势:高度压缩的大型模型比轻度压缩的小型模型获得更高的精度。

成为VIP会员查看完整内容
0
23

我们研究了深度学习优化算法评估中的几个混合因素。首先,我们深入研究自适应梯度方法如何与学习速率调整相互作用,这是一个众所周知的难以调整的超参数,它对神经网络训练的收敛和推广具有显着影响。我们引入了一个“嫁接”实验,该实验将更新的大小与其方向解耦,发现文献中的许多现有信念可能是由于对步长的隐式时间表的隔离不足而产生的。除了这一贡献之外,我们还对自适应梯度方法的推广进行了一些实证和理论回顾,旨在为这一空间带来更清晰的视角。

成为VIP会员查看完整内容
0
13

题目: The Break-Even Point on Optimization Trajectories of Deep Neural Networks

摘要:

深度神经网络的早期训练对其最终性能至关重要。在这项工作中,我们研究了在训练初期使用的随机梯度下降(SGD)超参数如何影响优化轨迹的其余部分。我们认为在这条轨迹上存在“盈亏平衡点”,超过这个平衡点,损失曲面的曲率和梯度中的噪声将被SGD隐式地正则化。特别是在多个分类任务中,我们证明了在训练的初始阶段使用较大的学习率可以减少梯度的方差,改善梯度的协方差条件。从优化的角度来看,这些效果是有益的,并且在盈亏平衡点之后变得明显。补充之前的工作,我们还表明,使用低的学习率,即使对于具有批处理归一化层的神经网络,也会导致损失曲面的不良适应。简而言之,我们的工作表明,在训练的早期阶段,损失表面的关键属性受到SGD的强烈影响。我们认为,研究确定的效应对泛化的影响是一个有前途的未来研究方向。

成为VIP会员查看完整内容
0
26

主题: On the information bottleneck theory of deep learning

摘要: 深度神经网络的实际成功并没有得到令人满意地解释其行为的理论进展。在这项工作中,我们研究了深度学习的信息瓶颈理论,它提出了三个具体的主张:第一,深度网络经历了两个不同的阶段,分别是初始拟合阶段和随后的压缩阶段;第二,压缩阶段与深网络良好的泛化性能有着因果关系;第三,压缩阶段是由随机梯度下降的类扩散行为引起的。在这里,我们证明这些声明在一般情况下都不成立,而是反映了在确定性网络中计算有限互信息度量的假设。当使用简单的binning进行计算时,我们通过分析结果和模拟的结合证明,在先前工作中观察到的信息平面轨迹主要是所采用的神经非线性的函数:当神经激活进入饱和时,双边饱和非线性如产生压缩相但线性激活函数和单边饱和非线性(如广泛使用的ReLU)实际上没有。此外,我们发现压缩和泛化之间没有明显的因果关系:不压缩的网络仍然能够泛化,反之亦然。接下来,我们表明,压缩阶段,当它存在时,不产生从随机性在训练中,通过证明我们可以复制IB发现使用全批梯度下降,而不是随机梯度下降。最后,我们证明当输入域由任务相关信息和任务无关信息的子集组成时,隐藏表示确实压缩了任务无关信息,尽管输入的总体信息可能随着训练时间单调增加,并且这种压缩与拟合过程同时发生而不是在随后的压缩期间。

成为VIP会员查看完整内容
0
34

简介: 为了解释超参数化深度网络令人惊讶的良好泛化行为,最近的工作开发了各种泛化边界学习方法,这些方法都是基于统一收敛的基础学习理论技术。尽管众所周知,存在多个边界的数值很大,但通过大量实验,我们发现了这些边界的更多相关方面:在实践中,这些边界会随着训练数据集的大小而增加。然后,以我们的观察为指导,我们提供了由梯度下降(GD)训练的过参数化线性分类器和神经网络的示例,其中即使证明了最大程度地考虑了GD的隐性偏差,也证明均匀收敛不能“解释泛化”。更准确地说,即使我们仅考虑GD输出的分类器集,其测试误差小于我们的设置中的一些误差,我们仍然表明,在这组分类器上应用(双面)均匀收敛只会产生虚无泛化保证大于1−ε。通过这些发现,我们对基于统一收敛的泛化边界的威力提出了疑问,以提供为什么超参数化的深层网络能够很好地泛化的完整情况。

本文提出了本质上是负面的结果,表明许多现有的(基于规范的)深度学习算法的性能边界无法达到他们要求的结果。作者进一步说,当其他研究者继续依靠双边一致收敛的机制时,他们将无法达到自己宣称的结果。虽然本文没有解决(也不假装解决)深层神经网络中的泛化问题,但是将该算法“钉死在十字架上”(培根原话“An Instance of the Fingerpost”),指出机器学习领域应该关注另一个不同的地方。

作者介绍: Vaishnavh Nagarajan,卡内基梅隆大学(CMU)计算机科学系五年级的博士生。他的兴趣在于机器学习和人工智能的算法和基础方面。目前,他正在研究如何在有监督和无监督的学习环境中从理论上理解深度学习中的泛化。在过去,他从事过更传统的学习理论、多智能体系统和强化学习。

Zico Kolter,卡内基梅隆大学计算机科学学院计算机科学系的副教授。 除了在CMU的全职工作之外,还任博世AI中心(BCAI)的AI研究首席科学家,工作重点是机器学习,优化和控制。 具体来说,就是使深度学习算法更安全,更可靠,更易于解释。个人主页:https://www.csd.cs.cmu.edu/people/faculty/zico-kolter

成为VIP会员查看完整内容
0
8

We investigate how the final parameters found by stochastic gradient descent are influenced by over-parameterization. We generate families of models by increasing the number of channels in a base network, and then perform a large hyper-parameter search to study how the test error depends on learning rate, batch size, and network width. We find that the optimal SGD hyper-parameters are determined by a "normalized noise scale," which is a function of the batch size, learning rate, and initialization conditions. In the absence of batch normalization, the optimal normalized noise scale is directly proportional to width. Wider networks, with their higher optimal noise scale, also achieve higher test accuracy. These observations hold for MLPs, ConvNets, and ResNets, and for two different parameterization schemes ("Standard" and "NTK"). We observe a similar trend with batch normalization for ResNets. Surprisingly, since the largest stable learning rate is bounded, the largest batch size consistent with the optimal normalized noise scale decreases as the width increases.

0
3
下载
预览
小贴士
相关VIP内容
专知会员服务
23+阅读 · 2020年3月6日
相关论文
Do Transformer Attention Heads Provide Transparency in Abstractive Summarization?
Joris Baan,Maartje ter Hoeve,Marlies van der Wees,Anne Schuth,Maarten de Rijke
3+阅读 · 2019年7月8日
The Effect of Network Width on Stochastic Gradient Descent and Generalization: an Empirical Study
Daniel S. Park,Jascha Sohl-Dickstein,Quoc V. Le,Samuel L. Smith
3+阅读 · 2019年5月9日
Yin Cui,Menglin Jia,Tsung-Yi Lin,Yang Song,Serge Belongie
12+阅读 · 2019年1月16日
On Improving Decentralized Hysteretic Deep Reinforcement Learning
Xueguang Lu,Christopher Amato
3+阅读 · 2018年12月15日
Difan Zou,Yuan Cao,Dongruo Zhou,Quanquan Gu
6+阅读 · 2018年11月21日
Joaquin Vanschoren
115+阅读 · 2018年10月8日
Chengxiang Yin,Jian Tang,Zhiyuan Xu,Yanzhi Wang
6+阅读 · 2018年6月8日
Zhewei Wang,Bibo Shi,Charles D. Smith,Jundong Liu
4+阅读 · 2018年5月15日
Chiyuan Zhang,Oriol Vinyals,Remi Munos,Samy Bengio
7+阅读 · 2018年4月20日
Jaakko Lehtinen,Jacob Munkberg,Jon Hasselgren,Samuli Laine,Tero Karras,Miika Aittala,Timo Aila
4+阅读 · 2018年3月12日
Top