Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies

作者:Paul Vicol、Luke Metz、Jascha Sohl-Dickstein

论文地址:http://proceedings.mlr.press/v139/vicol21a/vicol21a.pdf

摘要:目前,展开(unrolled)计算图应用在很多场景中,包括训练 RNN、通过展开优化微调超参数和训练可学习优化器等。但是,在这类计算图中优化参数的方法存在着高方差梯度、偏差、更新缓慢以及大量内存使用等诸多问题。

研究者提出了一种名为 Persistent Evolution Strategies (PES)的方法,它可以将计算图分成一系列截断的展开,并在每次展开后执行基于进化策略的更新步骤。PES 通过在整个展开序列上累积校正项消除这些截断的偏差,可以实现快速参数更新,具有低内存使用、无偏差以及合理的方差特征。实验表明,PES 在合成任务上展现出了与其他梯度估计方法的优势,并在训练可学习优化器和微调超参数方面具有适用性。

成为VIP会员查看完整内容
10

相关内容

专知会员服务
20+阅读 · 2021年8月9日
专知会员服务
20+阅读 · 2021年8月1日
专知会员服务
64+阅读 · 2021年7月25日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
49+阅读 · 2021年6月2日
专知会员服务
36+阅读 · 2021年5月29日
【KDD2020】最小方差采样用于图神经网络的快速训练
专知会员服务
27+阅读 · 2020年7月13日
基于深度学习的单目深度估计综述
CVer
4+阅读 · 2020年10月6日
如何改进梯度下降算法
论智
9+阅读 · 2018年4月19日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
【迁移学习】迁移学习在图像分类中的简单应用策略
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
Arxiv
0+阅读 · 2021年10月5日
Few-shot Scene-adaptive Anomaly Detection
Arxiv
8+阅读 · 2020年7月15日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关VIP内容
专知会员服务
20+阅读 · 2021年8月9日
专知会员服务
20+阅读 · 2021年8月1日
专知会员服务
64+阅读 · 2021年7月25日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
49+阅读 · 2021年6月2日
专知会员服务
36+阅读 · 2021年5月29日
【KDD2020】最小方差采样用于图神经网络的快速训练
专知会员服务
27+阅读 · 2020年7月13日
微信扫码咨询专知VIP会员