Clipping the gradient is a known approach to improving gradient descent, but requires hand selection of a clipping threshold hyperparameter. We present AutoClip, a simple method for automatically and adaptively choosing a gradient clipping threshold, based on the history of gradient norms observed during training. Experimental results show that applying AutoClip results in improved generalization performance for audio source separation networks. Observation of the training dynamics of a separation network trained with and without AutoClip show that AutoClip guides optimization into smoother parts of the loss landscape. AutoClip is very simple to implement and can be integrated readily into a variety of applications across multiple domains.


翻译:缩放梯度是改善梯度下降的已知方法,但需要手工选择剪切阈值超参数。我们介绍AutoClip,这是一个根据培训期间所观察到的梯度规范历史自动和适应性选择梯度剪切阈值的简单方法。实验结果显示,应用AutoClip可以改善音源分离网络的概括性性能。观察经过培训的、不经过AutoClip的分离网络的培训动态显示,AutoClip引导优化到损失场景中更平滑的部分。AutoClip非常简单,可以执行,可以很容易地融入多个领域的各种应用中。

0
下载
关闭预览

相关内容

截断,即通过某个阈值来控制系数的大小,若系数小于某个阈值便将该系数设置为0,即简单截断。
深度强化学习策略梯度教程,53页ppt
专知会员服务
183+阅读 · 2020年2月1日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
已删除
将门创投
3+阅读 · 2019年11月25日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年11月25日
Top
微信扫码咨询专知VIP会员