We analyse and explain the increased generalisation performance \latestEdits{of} Iterate Averaging using a Gaussian Process perturbation model between the true and batch risk surface on the high dimensional quadratic. % Based on our theoretical results We derive three phenomena \latestEdits{from our theoretical results:} (1) The importance of combining iterate averaging with large learning rates and regularisation for improved regularisation (2) Justification for less frequent averaging. (3) That we expect adaptive gradient methods to work equally well or better with iterate averaging than their non adaptive counterparts. Inspired by these results\latestEdits{, together with} empirical investigations of the importance of appropriate regularisation for the solution diversity of the iterates, we propose two adaptive algorithms with iterate averaging. \latestEdits{These} give significantly better results than SGD, require less tuning and do not require early stopping or validation set monitoring. We showcase the efficacy of our approach on the CIFAR-10/100, ImageNet and Penn Treebank datasets on a variety of modern and classical network architectures.


翻译:我们用高斯进程在高维四边形上真实和批量风险表面之间的扰动模型分析并解释增加的通用性能。%基于我们的理论结果,我们从理论结果中得出3个现象:}(1) 将平均偏差与高学习率和常规化相结合对于改进规范化的重要性(2) 平均偏差的理由。(3) 我们期望适应性梯度方法与非适应性强的平流法一样好或更好。受这些结果的启发\lastEdits{和}关于适当正规化对于解决方案多样性的重要性的经验性调查一起,我们提出了两种平均偏差的适应性算法。\latestEdits{sues}比SGD结果要好得多,需要较少的调整,不需要及早停止或验证成套的监测。我们展示了我们在各种现代和古典网络结构上的CIFAR-10-100、图像网和Penn Tribank数据集的功效。

0
下载
关闭预览

相关内容

【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
From English to Signal Temporal Logic
Arxiv
0+阅读 · 2021年9月21日
Arxiv
7+阅读 · 2021年4月30日
Arxiv
6+阅读 · 2020年10月8日
Arxiv
7+阅读 · 2018年11月6日
Arxiv
11+阅读 · 2018年3月23日
VIP会员
相关VIP内容
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
相关资讯
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员