动量 - 专知主题

动量方法 (Polyak, 1964) 旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。

没有数据了, 换个别的吧!

参考链接

微信扫码咨询专知VIP会员