Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies
作者:Paul Vicol、Luke Metz、Jascha Sohl-Dickstein
论文地址:http://proceedings.mlr.press/v139/vicol21a/vicol21a.pdf
摘要:目前,展开(unrolled)计算图应用在很多场景中,包括训练 RNN、通过展开优化微调超参数和训练可学习优化器等。但是,在这类计算图中优化参数的方法存在着高方差梯度、偏差、更新缓慢以及大量内存使用等诸多问题。
研究者提出了一种名为 Persistent Evolution Strategies (PES)的方法,它可以将计算图分成一系列截断的展开,并在每次展开后执行基于进化策略的更新步骤。PES 通过在整个展开序列上累积校正项消除这些截断的偏差,可以实现快速参数更新,具有低内存使用、无偏差以及合理的方差特征。实验表明,PES 在合成任务上展现出了与其他梯度估计方法的优势,并在训练可学习优化器和微调超参数方面具有适用性。